2019年中国计算机视觉行业市场研究.pdf

返回 相关 举报
2019年中国计算机视觉行业市场研究.pdf_第1页
第1页 / 共37页
2019年中国计算机视觉行业市场研究.pdf_第2页
第2页 / 共37页
2019年中国计算机视觉行业市场研究.pdf_第3页
第3页 / 共37页
2019年中国计算机视觉行业市场研究.pdf_第4页
第4页 / 共37页
2019年中国计算机视觉行业市场研究.pdf_第5页
第5页 / 共37页
亲,该文档总共37页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
1 报告编码19RI0796 头豹研究院 | 计算机系列深度研究 400-072-5588 2019 年 中国计算机视觉行业市场研究 报告摘要 TMT 团队 根据国家标准化管理委员会指导编撰的2018 人工 智能标准化白皮书定义,计算机视觉是使用计算 机模仿人类视觉系统的科学,让计算机拥有类似人 类提取、处理、理解和分析图像以及图像序列的能 力。 自动驾驶、 机器人、 智能医疗等领域均需要通过 计算机视觉技术从视觉信号中提取并处理信息。随 着移动设备数量的增长和传感器技术的进步,包含 有价值的图像和视频数据的增加,智能终端与移动 设备采集和产生的环境与用户数据成为宝贵资源。 对视觉信息的分析须借助计算机视觉技术,数据量 的急剧增长,算力的大幅提升和深度学习算法的不 断优化极大促进了计算机视觉行业的发展。 热点一: 深度学习算法促进计算机视觉准确度提升 热点二: 海量数据为深度学习算法提供了大量数据 热点三: 人工智能芯片发展提供算力支持基础 算法是计算机视觉行业发展的核心要素之一,是计算机 基于其所训练的数据集归纳出的识别逻辑,算法模型的 优化可以更精准的识别物体和场景。 由学术及研究机构承担建设的公共数据集不断丰富,公 共数据集一般用于算法测试和能力竞赛,具有高质量特 点,为技术提高提供优质数据,为计算机视觉创业企业 带来优质资源。 计算机视觉领域的图像和视频数据需要大量矩阵计算操 作,传统的 CPU 算力不足,无法满足并行计算要求。随 着 GPU、 FPGA, ASIC 等专用芯片的出现, 数据处理速度 大幅提升,为计算机视觉发展提供算力支持。GPU、 FPGA、 ASIC 等具有良好并行计算能力的芯片性能高, 算 力在 CPU 数十倍甚至上百倍之上, 可大幅缩短计算过程, 有利于缩短模型架构调整时间,加快模型进步速度。 詹欣琪 邮箱:csleadleo 分析师 行业走势图 相关热点报告 计算机系列深度研究 2020 年中国低代码开发平台 行业概览 计算机系列深度研究行 业概览_2019 年中国办公软件 行业概览 1 报告编码19RI0401 目录 1 方法论 . 4 1.1 方法论 . 4 1.2 名词解释 . 5 2 中国计算机视觉行业市场综述 . 9 2.1 计算机视觉行业定义 . 9 2.2 计算机视觉行业分类 . 9 2.3 中国计算机视觉行业规模 . 12 2.4 计算机视觉行业产业链 . 13 2.4.1 产业链上游 . 13 2.4.2 产业链中游 . 16 2.4.3 产业链下游 . 16 3 中国计算机视觉行业驱动因素 . 18 3.1 深度学习算法促进计算机视觉准确度提升 . 18 3.2 海量数据为深度学习算法提供了大量的数据支持 . 19 3.3 人工智能芯片发展提供算力支持 . 20 3.4 计算机视觉应用前景广阔 . 20 4 中国计算机视觉行业制约因素 . 22 4.1 中国计算机视觉实际商业应用能力仍需提高 . 22 2 报告编码19RI0401 4.2 高质量数据获取成本高、难度大 . 22 5 中国计算机视觉行业相关政策法规 . 24 6 中国计算机视觉行业发展趋势 . 26 6.1 计算从云端到智能前端 . 26 6.2 云+AI,智能云端赋能前端实现计算机视觉 . 27 7 中国计算机视觉行业竞争格局 . 29 7.1 中国计算机视觉行业竞争格局概览 . 29 7.2 中国计算机视觉行业典型企业分析 . 29 7.2.1 依图科技 . 29 7.2.2 云从科技 . 31 7.2.3 格灵深瞳 . 32 3 报告编码19RI0401 图表目录 图 2-1 中国计算机视觉行业规模,2014-2023 年预测 . 12 图 2-2 计算机视觉行业产业链 . 13 图 2-3 视频图像采集设备芯片 . 15 图 2-4 计算机视觉应用领域 . 17 图 3-1 计算机视觉相关数据集 . 19 图 3-2 计算机视觉部分应用领域 . 21 图 4-1 数据、算法、商业应用产品作用机制 . 23 图 5-1 人工智能与计算机视觉相关政策 . 25 图 7-1 格灵深瞳智能算法技术 . 33 图 7-2 格灵深瞳产品 . 34 4 报告编码19RI0401 1 方法论 1.1 方法论 头豹研究院布局中国市场, 深入研究 10 大行业, 54 个垂直行业的市场变化, 已经积累 了近 50 万行业研究样本,完成近 10,000 多个独立的研究咨询项目。 研究院依托中国活跃的经济环境,从人工智能、人脸识别、机器视觉等领域着手, 研究内容覆盖整个行业的发展周期,伴随着行业中企业的创立,发展,扩张,到企 业走向上市及上市后的成熟期, 研究院的各行业研究员探索和评估行业中多变的产 业模式,企业的商业模式和运营模式,以专业的视野解读行业的沿革。 研究院融合传统与新型的研究方法, 采用自主研发的算法, 结合行业交叉的大数据, 以多元化的调研方法, 挖掘定量数据背后的逻辑, 分析定性内容背后的观点, 客观 和真实地阐述行业的现状, 前瞻性地预测行业未来的发展趋势, 在研究院的每一份 研究报告中,完整地呈现行业的过去,现在和未来。 研究院秉承匠心研究, 砥砺前行的宗旨, 从战略的角度分析行业, 从执行的层面阅 读行业,为每一个行业的报告阅读者提供值得品鉴的研究报告。 头豹研究院本次研究于 2019 年 06 月完成。 5 报告编码19RI0401 1.2 名词解释 ILSVRC:ImageNet Large Scale Visual Recognition Challenge,图像分类领域的 比赛。 petaflop/s-day(pfs-day) :一天之内进行每秒一千万亿次的浮点运算。 人工智能:研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统 的一门新兴技术科学。 计算机视觉:使用计算机及相关设备模拟人类视觉认知和理解事物的计算机技术。 OCR 技术:Optical Character Recognition,光学字符文本识别技术,计算机通过光 学设备检查纸上打印的字符, 通过检测暗、 亮的模式确定其形状, 然后用字符识别方法 将形状翻译成计算机文字的过程,完成计算机对文字的阅读。 语音识别: 让机器通过识别和理解过程把语音信号转变为相应的文本或命令的计算机技 术。 自然语言处理:实现人与计算机之间用自然语言进行有效通信的计算机技术。 深度学习: 深度学习是机器学习研究中的一个新的领域, 其动机在于建立、 模拟人脑进 行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。 嵌入式系统:一种完全嵌入受控器件内部,为特定应用而设计的专用计算机系统。 开源软件:Open Source Software(OSS) ,公开源代码的软件。 神经网络的反向传播算法 (BP 算法) : 学习过程由信号的正向传播与误差的反向传播两 个过程组成。 支撑向量机(SVM) :在机器学习领域,是一个有监督的学习模型,通常用来进行模式 识别、分类以及回归分析。 CPU:Central Processing Unit,中央处理器,是一块超大规模的集成电路,是一台计 6 报告编码19RI0401 算机的运算核心和控制核心。 它的功能主要是解释计算机指令以及处理计算机软件中的 数据。 GPU:Graphics Processing Unit,图形处理器,又称显示核心、视觉处理器、显示芯 片,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机 等)上进行图像运算工作的微处理器。 ASIC 芯片:Application Specific Integrated Circuit,用于供专门应用的集成电路芯 片技术。 FPGA: Field-Programmable Gate Array, 现场可编程门阵列, 专用集成电路 (ASIC) 领域中的一种半定制电路。 TFLOP/S:T/s,是数据流量的计数单位,即 1 万亿次浮点指令每秒,是衡量一个电脑 计算能力的标准。 CCD:Charge-coupled Device, 电荷耦合器件。 CMOS:Complementary Metal Oxide Semiconductor, 互补金属氧化物半导体。 DSP:Digital Signal Processing,数字信号处理。 DVR:Digital Video Recorder,硬盘录像机(即数字视频录像机) ,是一套进行图像 计算存储处理的计算机系统,具有对图像/语音和动态帧等进行长时间录像、录音、远 程监视和控制的功能。 DVS:Digital Video Server,网络视频服务器,是一种压缩、处理音视频数据的专业 网络传输设备。 H.265 编码:视频编码标准,可在低于 1.5Mbps 的传输带宽下,实现 1080p 全高清 视频传输。 IPC:网络摄像机,由网络编码模块和模拟摄像机组合而成。网络编码模块将模拟摄像 7 报告编码19RI0401 机采集到的模拟视频信号编码压缩成数字信号,可直接接入网络交换及路由设备。 IP-SAN:以 IP 网络构建存储网络,较光纤通道,具有更经济、自由扩展等特点。 ISP: Image Signal Processing, 图像信号处理。 主要用来对前端图像传感器输出信号 处理的单元,以匹配不同厂商的图象传感器。 NVR: Network Video Recorder, 网络硬盘录像机。 最主要的功能是通过网络接收 IPC (网络摄像机)设备传输的数字视频码流,并进行存储、管理,从而实现网络化带来的 分布式架构优势。 SoC 芯片:一种集成电路的芯片,可有效地降低电子/信息系统产品的开发成本。 存储介质:存储数据的载体,如硬盘、闪存、U 盘、等。 高级别容错性: 软件检测应用程序所运行的软件或硬件中发生的错误并从错误中恢复的 能力。 Caffe:Convolutional Architecture for Fast Feature Embedding,一种常用的深度 学习框架,在视频、图像处理方面应用较多。 Theano:一种深度学习 Python 算法库。 To rch :一种深度学习框架。 MXNet:一种深度学习库,为多 GPU 配置提供了良好的配置。 TensorFlow:谷歌研发的第二代人工智能学习系统。 PaddlePaddle:百度旗下深度学习开源平台。 CNTK:微软出品的开源深度学习工具包。 API:Application Programming Interface,应用程序编程接口,本质是预先定义的 函数和算法,目的是供应用程序与开发人员调用特定技术功能。 SDK:Software Development Kit,软件开发工具包,是被软件工程师用于为特定的 8 报告编码19RI0401 软件包、软件框架、硬件平台、操作系统等建立应用软件时的开发工具的集合。 ZB:Zettabyte,泽字节,一种信息计量单位,通常在标示网络硬盘总容量或具有大容 量的存储介质之存储容量时使用。 9 报告编码19RI0401 2 中国计算机视觉行业市场综述 2.1 计算机视觉行业定义 根据国家标准化管理委员会指导编撰的2018 人工智能标准化白皮书定义,计算机 视觉是使用计算机模仿人类视觉系统的科学, 让计算机拥有类似人类提取、 处理、 理解和分 析图像以及图像序列的能力。 自动驾驶、 机器人、 智能医疗等领域均需要通过计算机视觉技 术从视觉信号中提取并处理信息。 计算机视觉技术包括三个过程:目标检测、目标识别和行为识别。 目标检测解决从背景中找出使用者关注物体的问题, 该环节去除了背景中与目标无 关的信息。目标检测技术关键在于动态复杂场景中背景模型的建立、保持与更新。 目标识别过程通过多维度的特征分析比对确定物体的定义及分类。 行为识别是一种高层次的识别技术, 需要对动态多帧图像数据进行理解, 并构建相 应动作行为模型进行比对。 2.2 计算机视觉行业分类 (1) 2018 人工智能标准化白皮书根据计算机视觉解决的问题将其分为计算成像学、 图像理解、三维视觉、动态视觉和视频编解码五大类。 计算成像学是探索人眼结构、 相机成像原理以及其延伸应用的科学。 在相机成像原 理方面, 计算成像学不断促进现有可见光相机的完善, 使得现代相机更加轻便, 可 适用于不同场景。 同时计算成像学也推动着新型相机的产生, 使相机超出可见光的 限制。 在相机应用科学方面, 计算成像学可以提升相机的能力, 从而通过后续的算 法处理使得在受限条件下拍摄的图像更加完善, 例如图像去噪、 去模糊、 暗光增强、 去雾霾等,以及实现新的功能,例如全景图、软件虚化、超分辨率等。 10 报告编码19RI0401 图像理解是通过用计算机系统解释图像, 实现类似人类视觉系统理解外部世界的一 门科学。 通常根据理解信息的抽象程度可分为三个层次: 浅层理解, 包括图像边缘、 图像特征点、纹理元素等;中层理解,包括物体边界、区域与平面等;高层理解, 根据需要抽取的高层语义信息,可大致分为识别、检测、分割、姿态估计、图像文 字说明等。目前高层图像理解算法已逐渐广泛应用于人工智能系统,如刷脸支付、 智慧安防、图像搜索等。 三维视觉即研究如何通过视觉获取三维信息 (三维重建) 以及如何理解所获取的三 维信息的科学。 三维重建可以根据重建的信息来源, 分为单目图像重建、 多目图像 重建和深度图像重建等。 三维信息理解, 即使用三维信息辅助图像理解或者直接理 解三维信息。三维信息理解可分为,浅层:角点、边缘、法向量等;中层:平面、 立方体等; 高层: 物体检测、 识别、 分割等。 三维视觉技术可以广泛应用于机器人、 无人驾驶、智慧工厂、虚拟/增强现实等方向。 动态视觉即分析视频或图像序列, 模拟人处理时序图像的科学。 通常动态视觉问题 可定义为寻找图像元素,如像素、区域、物体在时序上的对应,以及提取其语义信 息的问题。动态视觉研究被广泛应用在视频分析以及人机交互等方面。 视频编解码指通过特定的压缩技术, 将视频流进行压缩。 视频流传输中最为重要的 编解码标准有国际电联的 H.261、 H.263、 H.264、 H.265、 M-JPEG 和 MPEG 系 列标准。 视频压缩编码主要分为两大类: 无损压缩和有损压缩。 无损压缩指使用压 缩后的数据进行重构时, 重构后的数据与原来的数据完全相同, 例如磁盘文件的压 缩。 有损压缩也称为不可逆编码, 指使用压缩后的数据进行重构时, 重构后的数据 与原来的数据有差异, 但不会影响人们对原始资料所表达的信息产生误解。 有损压 缩的应用范围广泛,例如视频会议、可视电话、视频广播、视频监控等。 11 报告编码19RI0401 (2) 从技术应用看,计算机视觉包括人脸识别、机器识别、物体和场景识别、OCR(光 学字符文本)识别等技术。 人脸识别作为一种身份鉴定的识别技术,包括图像采集、检测定位、特征提取、模 型对比等步骤, 应用场景广泛。 人脸识别的非接触性和非强制性特征使其在各类场 景中得以广泛应用。广泛应用于金融领域的身份验证,零售环节的面部识别支付, 商业服务领域的自动识别客户等方面。 OCR 技术(Optical Character Recognition),即光学字符文本识别技术,计算 机通过光学设备检查纸上打印的字符, 通过检测暗、 亮的模式确定其形状, 然后用 字符识别方法将形状翻译成计算机文字的过程。OCR 技术可以高效的将各类印刷 体的文件批量自动识别录入计算机,应用于对非结构化数据信息的采集。OCR 技 术要经历扫描、版面分析、文字识别、版面还原等过程。OCR 技术主要应用于身 份证件识别、单据识别等场景。 物体和场景识别是计算机将采集影像与数据库资料进行比对后, 识别物体与场景的 技术。物体和场景识别技术可应用于军事、医疗、无人驾驶、工业、商业等领域。 动态视频识别技术是基于动态图像进行识别, 动态视频识别与人脸识别、 物体和场 景识别具有应用领域交叉。 动态视频识别流程如下: 利用前端摄像头设备收集和 传输数据, 运用通过大数据训练、 具备云计算能力的深度学习图像分析系统进行 视频识别与分析, 实时进行视频检测和数据分析。 动态视频识别技术主要应用领域 有:监控系统:车牌识别、疑犯追踪、车辆违章检测等;行为识别:恐怖分子 检测、黄暴视频筛查、动作识别、情绪识别等;电商营销:广告植入、用户画像 分析等。 姿态识别通过对成像设备中获取的人体图像进行检测、 识别和跟踪, 对人体行为进 12 报告编码19RI0401 行理解和描述。姿态识别让机器“察言观色” ,带来全新人机交互体验。在视觉人 机交互方面,姿态识别是人类形体语言交流的一种延伸。从用户体验的角度来说, 融合姿态识别的人机交互能产品可大幅提升人机交流的自然性。 姿态识别在计算机 游戏、机器人控制和家用电器控制等方面具有广阔的应用前景。 2.3 中国计算机视觉行业规模 数据、 算力和算法是计算机视觉行业发展的三大核心。 随着移动设备数量的增长和传感 器技术的进步, 包含有价值的图像和视频数据的增加, 智能终端与移动设备采集和产生的环 境与用户数据成为宝贵资源。 对视觉信息的分析须借助计算机视觉技术, 数据量的急剧增长, 算力的大幅提升和深度学习算法的不断优化极大促进了计算机视觉行业的发展。 中国计算机 行业规模从 2014 年的 11.1 亿元增长至 82.7 亿元,年均复合增长率达 65.2%。 伴随计算机视觉技术从传统图片处理方法转向人工智能处理, 图像识别准确率显著突破, 应用场景不断拓展,计算机视觉行业将进入快速发展阶段,预测 2018 年至 2023 年中国计 算机视觉行业规模年均复合增长率将达 48.8%,2023 年规模达 603.5 亿元。 图 2-1 中国计算机视觉行业规模,2014-2023 年预测 来源:头豹研究院编辑整理 13 报告编码19RI0401 2.4 计算机视觉行业产业链 计算机视觉行业拥有完整产业链, 上中下游均处于快速发展阶段。 计算机视觉行业上游 为支持基础层,包括芯片、传感器、摄像头等硬件、算法支持以及数据支持;中游为计算机 视觉技术产品与服务方案提供商,下游为各行业应用领域。 图 2-2 计算机视觉行业产业链 来源:头豹研究院编辑整理 2.4.1 产业链上游 计算机视觉上游包括算法、数据集以及芯片、摄像设备、传感器等硬件。当前中国企业 在计算机视觉算法领域领先, 人工智能芯片仍需依赖海外芯片大厂 (如英伟达、 英特尔等) , 摄像机芯片已实现国产化替代。 (1) 摄像设备 摄像设备产品主要包括前端摄像机(模拟摄像机和网络摄像机) 、中心控制端的控制和 显示设备、后端的存储录像设备(DVR、NVR、CVR 等)以及各传输环节的光端机和交换 机等。摄像设备头部企业海康威视和大华股份在市场领先。 (2) 传感器 智能传感器为具有信息处理功能的传感器,其具备微处理机,可采集、处理、交换信息 等, 是传感器集成化与微处理机相结合的产物。 计算机视觉通过智能传感器全面感知外界环 14 报告编码19RI0401 境,而不同应用场景(如安防、金融、无人驾驶、医疗)等对传感器有不同需求,各类传感 器的大规模部署为实现计算机视觉应用创造重要条件。随着计算机视觉应用领域的不断拓 展,市场对传感器的需求将不断增多,高灵敏性、高精确性、高可靠性、微型化与集成化将 成为智能传感器发展的重要趋势。 (3) 算法 上游算法环节主要包括图像处理、编码压缩和图像内容识别等。 图像处理环节通过处理前端图像传感器采集到的原始图像数据, 将图像进行复原和增强。 宽动态处理、3D 降噪、透雾处理、低照度处理、图像拼接等新的图像处理功能不断创 新,使视频图像质量得到持续提升,且弥补了 CMOS 相对 CCD 在图像采集质量上的 劣势,推动 CMOS 对 CCD 的大范围替代,有效降低了图像、影像采集前端设备的成 本。 编码压缩环节可降低系统中数据的码流以便后续传输和存储。从 MPEG-4 到 H.264 再 到 H.265,算法压缩效率不断提升,H.264 算法的压缩比是 MPEG-4 的 1.5 到 2 倍, 而 H.265 算法的压缩比约是 H.264 的 2 倍。在网络带宽资源限制情况下,编码压缩算 法效率提升可支持为图像、影像的高清化升级。 图像内容识别方面, 中国企业在人脸识别等计算机视觉算法领域占据优势地位, 依图科 技、 商汤科技以及中科院深圳先进技术研究院在 2018 年全球人脸识别算法竞赛中识别 率均达到 99%以上,处于世界前沿。 算法的基础框架的研发基本为国外研究机构或公司所垄断,H.265 视频压缩基础算法 为国际研究机构 ITU-T 和 ISO/IEC 制定, 内容识别的深度学习算法多采用谷歌或 Facebook 等科技巨头所开源的基础框架。 但大量用于深度学习模型训练的开源工具和框架推出, 包括 Caffe、Theano、Torch、MXNet、TensorFlow、PaddlePaddle、CNTK 等等,开源工具 15 报告编码19RI0401 和框架的源代码公开并可免费使用, 极大降低计算机视觉领域的入门技术门槛。 中国计算机 视觉产品厂商具有基于基础算法进行改进和优化, 形成独有算法技术的能力。 随着人工智能 深度学习算法的快速成熟, 中国诞生了一批应用层面的计算机视觉 (即图像内容识别) 算法 供应商,例如商汤科技、旷视科技、依图科技、云从科技等。 (4) 芯片 芯片是核心硬件, 在零组件中成本占比最高。 将人工智能芯片嵌入前端摄像机可使其实 时处理、分析采集到的图像视频内容,识别画面中的人、场景、物等对象,并通过网络将信 息传递到人工智能后端进行计算、处理、分析、存储。系统的图像质量、码流控制能力、智 能识别效率、信息稳定性等皆由芯片性能决定。 影像采集设备中的处理器芯片包括模拟摄像机的 ISP 芯片、网络摄像机的 SoC 芯片、 后端 DVR/NVR 的 SoC 芯片、 深度学习处理器芯片。 高性能的深度学习算法加速器芯片 (AI 芯片)仍需使用 Intel、Google、NVIDIA 等海外芯片厂商设计的 GPU、FPGA 或者 ASIC 加速器芯片, 其余三类处理器芯片已实现较大程度的国产化替代, 中国代表性供应商包括华 为海思、富瀚微、中星微等(见图 2-3) 。计算机视觉领域深度学习芯片方案已 FPGA/ASIC 智能芯片,如深鉴科技的 DPU 芯片(FGPA) 、寒武纪的 AI 服务器芯片(ASIC) 、北京君正 的 NPU 协处理器(ASIC)等。芯片国产化带动计算机视觉前端设备的平均价格降低,部署 规模扩大,推动中国计算机视觉行业市场规模的扩张。 图 2-3 视频图像采集设备芯片 来源:头豹研究院编辑整理 16 报告编码19RI0401 2.4.2 产业链中游 中国从事计算机视觉的公司可分为工业巨头、 互联网巨头和创业公司。 除自身投入资源 研发外, 工业巨头和互联网巨头多数选择投资、 并购创业公司或与其战略合作以涉足计算机 视觉技术, 实现生态拓展和产业链布局。 创业公司中独角兽迅速崛起, 新兴创业公司不断涌 现。 工业巨头的主要代表企业有海康威视、 美的集团、 海尔集团, 其在计算机视觉应用领域 具有较深积累, 并涉足计算机视觉相关研发, 未来将打通行业产业链, 构建商业应用生 态圈。 互联网巨头的主要代表企业有阿里、 腾讯、 百度等, 其通过开设实验室或并购技术团队 获取领先技术, 技术水平领先, 且具有强大的数据获取优势, 在计算机视觉行业实现技 术引领。 创业公司的主要代表企业主要有商汤科技、 旷视科技及依图科技等, 其专注于计算机视 觉基础产品和服务开发,并将探索更多的服务场景,提供更多的定制化解决方案。 2.4.3 产业链下游 目前,计算机视觉主要用于安防影像分析、金融身份认证、广告营销、无人驾驶、机器 人、工业制造、医疗影像分析、教育和娱乐业等领域。人脸识别、物体识别等技术算法精度 提高使中国计算机视觉技术率先在安防领域中实现商业化,安防影像分析应用领域在 2018 年中国计算机视觉行业占比最高,达到 69.4%,广告营销、智能金融分别以 17.2%、9.6% 紧随其后,医疗影像、工业制造、新零售等创新领域也逐步解锁,成为计算机视觉行业快速 发展的重要支撑。 17 报告编码19RI0401 图 2-4 计算机视觉应用领域 来源:头豹研究院编辑整理 18 报告编码19RI0401 3 中国计算机视觉行业驱动因素 3.1 深度学习算法促进计算机视觉准确度提升 算法是计算机视觉行业发展的核心要素之一, 是计算机基于其所训练的数据集归纳出的 识别逻辑,算法模型的优化可以更精准的识别物体和场景。 在深度学习出现之前, 机器学习领域的主流是各种浅层学习算法, 如神经网络的反向传 播算法(BP 算法) 、支持向量机(SVM)等。计算机视觉作为一个数据复杂的领域,浅层学 习算法的识别准确率并不高。该类识别原理多为通过寻找合适的特征来让机器辨识物品状 态, 处理逻辑浅层且不能穷举各种复杂的情境, 因而算法拟合的准确率不高。 深度学习的出 现突破了传统浅层学习算法的局限, 重塑了计算机视觉的算法设计思路。 深度学习是一种基 于多层神经网络并以海量数据为输入的规则自学习方法,依靠提供给它的大量实际行为数 据, 即训练数据集, 进行规则中的参数和规则调整, 因此深度学习在面对与训练数据集类似 的场景时, 可做出准确度极高的判断。 深度学习算法使计算机视觉的主要识别方式发生重大 转变, 使机器从海量数据库里自行归纳物体特征, 然后按照该特征规律识别物体。 如神经网 络卷积深度学习技术令人脸识别瞬间提升到 3D 多维算法领域, 人类才从算法层面解决了人 脸识别不精准、实战难的问题,让人脸识别技术从此走向应用。 优质的算法模型可实现精准的图像识别, 深度学习作为机器学习领域的算法, 叠加海量 数据和计算机并行运算能力提升的推动, 可以做到传统视觉识别方法无法企及的精度, 让视 觉识别准确度大大提高。2012 年起,图像识别的精准度得到了极大的提升,从 70%提升到 95%以上。2012 年,ImageNet ILSVRC 比赛中,冠军团队使用 CNN 网络 AlexNet 将深 度学习算法应用在计算机视觉算法改进中,将识别错误率(top-5 error rate)一举降低到 15.32%,深度学习从此进入了广泛应用期,应用于商务、美图、医学、安防等各个领域。 19 报告编码19RI0401 此后,ILSVRC 冠军识别准确率不断提高,识别错误率从 2013 年 ZFNet 的 11.20%,到 2014 年 GoogLeNet 的 6.67%,再到 2015 年微软神经网
展开阅读全文
相关资源
相关搜索
资源标签

copyright@ 2017-2022 报告吧 版权所有
经营许可证编号:宁ICP备17002310号 | 增值电信业务经营许可证编号:宁B2-20200018  | 宁公网安备64010602000642