人工智能之计算机视觉.pdf

返回 相关 举报
人工智能之计算机视觉.pdf_第1页
第1页 / 共88页
人工智能之计算机视觉.pdf_第2页
第2页 / 共88页
人工智能之计算机视觉.pdf_第3页
第3页 / 共88页
人工智能之计算机视觉.pdf_第4页
第4页 / 共88页
人工智能之计算机视觉.pdf_第5页
第5页 / 共88页
亲,该文档总共88页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
I 人工智能之计算机视觉报告 Research Report of Computer Vision 2020 年第 8 期 顾问:黄高, 李涓子 8 前 言 计算机视觉( Computer Vision, CV)作为人工智能( AI)的核心技术之一, 在过去的三十年里发展迅猛,应用范围遍及工业、农业、军事、国防等多个领域。 与人类相比,机器更具优势,它不需要像人类那样依赖可见光,而是利用传感器 就能更清楚地看世界。但从发展角度看,计算机视觉技术本身还在发展,还有许 多理论、算法尚需完善,计算机视觉的应用范围也还远没有达到普及的程度,此 项技术蕴藏的潜能亟待开发利用。 本期 TR 报告我们选取计算机视觉作为主题,围绕计算机视觉的基本概念、 技术发展、人才概况、产业应用和热点趋势五大方面进行深入挖掘。报告的论文、 国家自然科学基金、趋势数据均来自于清华大学 唐杰教授自主研发的“科技情报 大数据挖掘与服务系统平台”(简称 AMiner),利用人工智能、大数据分析与 挖掘、知识图谱、自然语言处理等技术,并结合文献计量学等情报学方法制作生 成。 I 目 录 图表目录 . IV 1.概述篇 . 3 1.1 计算机视觉的概念 . 3 1.2 计算机视觉经典任务 . 3 1.3 计算机视觉的产生与发展 . 6 1.4 计算机视觉的机遇与挑战 . 6 2.技术篇 . 9 2.1 图像增强 . 9 2.1.1 基于多尺度分析的图像增强 . 9 2.1.2 数学形态增强 . 9 2.1.3 卷积神经网络增强 . 9 2.2 图像分类 . 10 2.2.1 单标签分类 . 10 2.2.2 多标签分类 . 10 2.3 图像检测与定位 . 11 2.3.1 物体定位 . 11 2.3.2 关键点检测 . 11 2.4 图像分割 . 11 2.4.1 语义分割 . 11 2.4.2 实例分割 . 12 2.4.3 全景分割 . 13 II 2.5 目标识别 . 13 2.5.1 3D 目标识别 . 13 2.5.2 点云目标识别 . 14 2.6 专利申请情况 . 15 2.6.1 全球专利申请概况 . 15 2.6.2 中国专利申请概况 . 16 2.7 国家自然科学基金支持情况 . 17 3.人才篇 . 19 3.1 计算机视觉学者概览 . 19 3.1.1 全球学者概况 . 19 3.1.2 中国学者概况 . 22 3.2 计算机视觉代表性学者介绍 . 23 3.3 计算机视觉代表性团队介绍 . 50 4.应用篇 . 57 4.1 城市公共安全 . 59 4.2 政务民生 . 60 4.3 金融服务 . 60 4.4 新零售 . 61 4.5 产业应用的未来 . 62 5.趋势 篇 . 63 5.1 技术趋势 . 63 5.2 国家趋势 . 63 5.3 机构趋势 . 64 III 5.4 技术发展面临的挑战 . 65 参考文献 . 67 IV 图表目录 图 1 识别任务 . 4 图 2 运动分析 . 5 图 3 场景重建 . 5 图 4 语义分割示例 . 12 图 5 实例分割示例 . 12 图 6 基于模型的 3D 目标识别方法流程 . 14 图 7 计算机视觉领域专利申请情况 . 15 图 8 全球计算机视觉专利 TOP 3 国家年变化趋势 . 16 图 9 中国计算机 视觉领域专利申请量 TOP 10 省市 . 16 图 10 中国计算机视觉专利 TOP 3 省市年变化趋势 . 17 图 11 国家自然科学基金分布情况 . 17 图 12 国家自然科学基金项目量前十的依托单位 . 18 图 13 计算机视觉全球顶尖学者分布 . 20 图 14 计算机视觉学者数量 Top 10 国家 . 20 图 15 计算机视觉学者 h-index 分布 . 21 图 16 计算机视觉全球学者迁徙图 . 21 图 17 计算机视觉学术机构对比 . 22 图 18 中国计算机视觉领域学者分布 . 23 图 19 计算机视觉领域技术趋势图 . 63 图 20 计算机视觉领域国家趋势图 . 64 图 21 计算机视觉领域机构趋势图 . 65 表 1 中外国家合作统计 . 23 1 报告 说明 1.数据来源 本报告中与计算机视觉领域相关的人才数据来均自于 AMiner 系统。系统支 持研究者信息抽取、研究者社会网络关系识别、研究者能力图谱、审稿人智能推 荐等功能,提供研究者和研究领域的全面知识,为科研管理和服务提供有力支撑。 平台自 2006 年上线以来,经过十多年的建设发展,已建立运作良好的数据采集 及集成更新机制,收录论文超 3 亿篇,专利 1 亿项,学者 1.3 亿位,其中超过 50 万的学者被人工标注与审核,吸引了全球 220 个国家 /地区 1000 多万独立 IP 的 访问,年度访问量 1,800 余万次。 2.学者及研究领域筛选 方法 本次报告中的人才和技术篇采用大数据挖掘技术,对计算机视觉领域内的学 者信息进行深入挖掘,参考 h-index、发表论文数、论文被引频次等指标,对学者 信息进行筛选,比较和分析了计算机视觉领域人才在全球和国内的分布概况,领 域的技术研究发展趋势,以及技术领先国家趋势等。 ( 1)由计算机 视觉 顾问组推荐期刊 /会议列表和领域关键词, 期刊 /会议 : IEEE 国际计算机视觉与模式识别会议( IEEE Conference on Computer Vision and Pattern Recognition, CVPR)、 IEEE 国际计算机视觉大会( IEEE International Conference on Computer Vision, ICCV)、欧洲计算机视觉国际会议( European Conference on Computer Vision, ECCV)、 IEEE 模式分析和机器智能学报( IEEE Transactions on Pattern Analysis and Machine Intelligence, PAMI)、国际计算机视 觉杂志( International Journal on Computer Vision, IJCV)、 IEEE 图像处理汇刊 ( IEEE Transactions on Image Processing, TIP)、计算机视觉和图像理解 ( Computer Vision and Image Understanding, CVIU)、模式识别( Pattern Recognition, PR)、模式识别快报( Pattern Recognition Letters, PRL) ; 领域关键词 :计算 机视觉( Computer vision) 、 图像和视频采集( Image and video acquisition) 、 图 像识别( Image recognition) 、 模式识别( Pattern recognition) 、 图像理解( Image understanding) 、 图像分类( Image classification) 、 目标检测( Object detection) 、 目标跟踪( Object tracking) 、 语义分割( Semantic segmentation) 、 实例分割( Instance segmentation) 、 卷积神经网络( Convolutional neural networks) 、 三维视觉( 3D 2 vision) 、 光流估计( Optical flow estimation) 、 景深估计( Scene depth estimation) 、 人脸识别( Face recognition) 、 图像生成( Image generation) 。 ( 2)通过 AMiner 大数据平台对近 20 年( 2000 2019 年)发表在推荐期刊 /会议的论文进行采集和清洗,并对论文作者信息进行深度挖掘 ,从中选出了与 计算机视觉领域关键词相关的 50,073 位学者,再按照学者的 h-index 进行排序; ( 3)综合运用知识图谱、自然语言处理、可视化、文献计量学等技术手段, 基于论文和学者数据,分析得出计算机视觉领域的技术研究发展趋势,以及技术 领先的国家、机构趋势。 3.代表性学者画像 “ 学者画像 ” 是 AMiner 平台的核心服务功能之一 ,其 特色在于除了提供专 家学者如姓名、单位、地址、联系方式、个人简介、教育经历等个人基本信息之 外,还利用团队多年的命名排歧相关技术,建立了较为 完善 的学者 -论文映射关 系,提供学者学术评价、研究兴趣发展趋势分析、学者合作者关系网络等分析挖 掘信息。 7 1.概述篇 概述篇 3 1.1 计算机视觉的概念 计算机视觉( Computer Vision, CV)是指用计算机实现人的视觉功能 对客 观世界的三维场景的感知、识别和理解 1。它是一种典型的交叉学科研究领域, 包含了生物、心理、物理、工程、数学、计算机科学等领域,存在与其他许多学 科或研究方向之间相互渗透、相互支撑的关系。 1.2 计算 机 视觉 经典任务 近几十年来,随着计算机硬件、机器学习以及模式识别技术的快速发展,特 别是伴随着深度学习技术的崛起,计算机视觉的研究得到了飞速发展。目前,计 算机视觉已经在光学字符识别、人脸检测与识别、物体检测等领域的多个大数据 集评测中接近或者已经超过了人眼的性能。概括来说,计算机视觉主要有以下几 个经典任务。 识别任务 计算机视觉的经典问题是确定图像是否包含特定的物体、特征或活动。识别 任务又可以细分为图像分类、标识和目标检测。图像分类指的是将图片归入事先 设定的类别中,例如识别图片中的物种识别 2;标识指的是获得人或物体的身份 信 息,例如人脸识别 3-4; 目标检测指的是检测图像中存在的感兴趣的一类事物, 例如获得图中车辆、行人的位置信息 5。 ( a)物种识别任务 2 4 概述篇 ( b)人脸识别任务 4 ( c)目标检测任务 5 图 1 识别任务 运动分析 这类任务的目的是估计图片序列中物体的运动状态。例如,根据拍摄视频估 计相机的运动 6,追踪监控视频中的物体 7,计算光流 即图像上点在下一张 图像的位置 8等等。 ( a)追踪监控视频 7 概述篇 5 ( b)计算光流 8 图 2 运动分析 7 场景重建 基于已有的一张或多张图片建立场景的三维模型 9。一种简单的情況是确定 场景表面的一组点,更复杂一点可以是多面体模型。场景重建可以在不借助运动 和扫描的情况下构建三维模型,这在虚拟现实场景下可以获得广泛应用 10。 图 3 场景重建 10 图像恢复 图像恢复 11的目的是去噪。相机成像是通过光线打在光学传感器上实现的。 传感器和相对运动都有可能带来噪声。计算机视觉的去噪的方法包括滤波器 12 和深度学习模型 13。 6 概述篇 1.3 计算机视觉的产生与发展 纵观计算机视觉发展历史,其发展与很多学科息息相关 13-14,大致可分为以 下四个阶段。 第一阶段 马尔计算视觉 1982 年,大卫马尔( David Marr)的视觉一书在计算机视觉领域中起 到了关键性的作用,它标志着计算机视觉正式成为一门独立的学科。马尔的计 算视觉分为三个层次:计算理论、表达和算法以及算法实现。马尔认为, 大脑 的神经计算和计算机的数值计算没有本质区别,而从现在神经科学的进展看, “神经计算”与数值计算在有些情况下还是会产生本质区别。 第二阶段 主动视觉与目的视觉 学术界几位教授对马尔视觉计算理论提出了反对意见,认为缺乏主动性、 目的性和应用性。但由于这段时期没有过多进展,对后续计算机视觉的发展影 响不大,因此很多时候没有把这一阶段单独列出介绍。 第三阶段 多视几何和分层三维重建 其中代表人物包括法国的 O. Faugeras、澳大利亚国立大学的 R.Hartely 和 英国牛津大学的 A. Zisserman,研究重点是如 何快速、鲁棒地重建大场景。 第四阶段 基于学习的视觉 最后来到了当代计算机视觉的阶段,基于学习的视觉。在此阶段中,文献 大体上分为两个阶段:一是以流形学习为代表的子空间法,二是目前以深度神 经网络和深度学习为代表的视觉方法。 1.4 计算机视觉的机遇与挑战 自 20 世纪 60 年代开始,计算机视觉取得了长足的进步,特别是在图像分类、 人脸识别、目标检测、医疗读图等任务上逼近甚至超越了普通人类的视觉能力。 计算机视觉的所面临的机遇与挑战主要表现在。 ( 1)计算机视觉 迎来了前所未有的关注和接踵而至的投资热潮 ,这些关注 既来自风险投资公司、互联网公司等,也来自各级政府,据艾媒咨询数据显示, 2018 年中国计算机视觉市场规模为 155 亿元,较 2017 年增多了 87 亿元。 2019 年中国计算机视觉市场规模达到 450 亿元, 2020 年达 780 亿元, 2021 年将突破 1000 亿元,达 1120 亿元( 概述篇 7 公司所属领域分布中,计算机视觉领域拥有最多创业公司,包括商汤、旷世、云 从、依图等众多硬科技公司。其中,商汤、旷世、云从更是登上了美国的“实体 清单”,作为推动中国高科技发展的中坚力量,要想在国际舞台上拥有更多的话 语权和主动权,就必须手握核心技术,拥有自主产权的高端产品。 ( 2)计算机视觉是一类相对技术发展较成熟、应用场景多样、误判容忍度 有不同要求的可深度发展的领域,很难出现互联网行业那样赢者通吃的局面。在 应用层面上,移动互联网 /安防领跑,零售 /物流 跟进,医疗 /无人驾驶有待成熟, 落地的速度开始出现分化。社交、咨询、游戏、电商等移动互联网场景,以及门 禁等安防领域,因为数据比较容易获得,以及对误判容忍度相对较高,发展非常 迅速。预计新零售、物流、制造业等企业场景以及家庭安防等家居场景开始成熟。 另一方面,无人驾驶及医疗对辨别的准确性要求高,数据复杂程度高,短期很难 实现大规模商用。 ( 3)尽管美国在计算机视觉领域一直处于前沿,但中国已悄悄开始“超车”, 大批华人科学家,如李飞飞、汤晓鸥、孙剑、何恺明等已在学术和产业界居于领 跑者地位,华人计算机视觉领域精英们正在撼动 着美国在人工智能领域的领导地 位,并逐渐获得了世界的肯定,使中国迎来了巨大的机遇。 概述篇 7 2.技术篇 9 技术篇 计算机视觉的内涵丰富,需要完成的任务众多,关键任务包括:图像增强、 图像分类、图像检测与定位、图像分布、目标识别。本篇首先从计算机视觉的关 键技术入手,再通过 AMiner 大数据平台挖掘获取了与领域相关的 66,519 项专利 和 1,052 项国家基金支持情况, 以此展览 计算机视觉技术 未来可能的发展方向。 2.1 图像增强 图像增强处理是数字图像处理技术中的一种重要方法。在实际生活中,图 像可能会因拍摄环境恶劣、传输噪声引入等原因导致图像质量降低。图像增强 处理可以有效去除图像噪声、增强图像边缘,突出图像中所需的重要信息,去 除 或弱化不重要的信息,达到改善图像的视觉质量的效果,更适合人的观察或 机器的识别 15。作为计算机视觉的重要组成部分,图像增强对于提升图像的质 量发挥着重要的作用。 2.1.1 基于多尺度分析的图像增强 根据生理学家对人类视觉系统的研究结果,一种“最优”的图像表示方法应 该具有多分辨率、局域性、方向性和各向异性的特性 16,其基础的支撑区间应为 “长条形”,能充分利用图像的几何特征,把这种“最优”的表示称为“多尺度 几何分析”( Multiscale Geometric Analysis, MGA)。 图像的多尺度几 何分析方法可分为自适应和非自适应两类。自适应方法是指 图像变换的基函数随图像内容变化而变化,它一般先进行边缘检测,再利用边缘 信息对原函数进行最优表示,主要有 Bandelet17-18、 Beamlet19、 Directionlet20、 Terolet21等。与之不同的是,非自适应方法是指图像变换的基函数与图像内容无 关,它不需要先验地知道图像本身的几何特征,但是能对特定函数具有较为理想 的逼近效果,其代表为 Ridgelet22、 Curvelet23、 Contourlet24-26、 Shearlet27等。 2.1.2 数学形态增强 数学形态学 28是图像处理和分析的新理论、新方法,它的基本原理是把图像 看作一个集合,用“探针”(即某种形状的结构元素)对图像进行求补、移位、 交或并的集合运算,这些集合运算就构成了各种不同的数学形态学方法。学者们 通过引入数学形态学的知识,改进传统的图像增强方法,并运用于灰度图像增强、 彩色图像增强和医学图像增强等情境下。 2.1.3 卷积神经网络增强 10 技术篇 近年来,随着以卷积神经网络( CNN)的深度学习技术的发展,以图像去噪、 图像超分辨和图像去模糊等为代表的图像复原 与增强、以及以视觉生成与合成为 代表的图像编辑问题都获得了较多的关注。 2014 年, Schmidt 等针对图像复原问 题,提出了基于逐次迭代学习的判别学习模型 基于半二次分裂算法的级联收 缩场( Cascade of Shrinkage Fields, CSF),该方法通过将预测过程展开为迭代学 习算法,从训练数据中学习阶段模型参数 29。 2015 年, Chen 等从反应扩散方程 的角度出发,提出了非线性反应扩散( Trainable Nonlinear Reaction Diffusion, TNRD)模型,对每次迭代的滤 波器和响应函数进行学习,并从递归神经网络的 角度对模型进行了解释 30。受 CSF 和 TNRD 启发, Zhang 等设计了一种基于卷 积神经网络的深度去噪网络 DnCNN( Denoising Convolutional Neural Network)。该模型通过端到端的残差学习,从函数回归角度用卷积神经网络将 噪声从噪声图像中分离出来,取得了显著优于其他方法的去噪结果 31。 2.2 图像分类 作为计算机视觉领域的基础性任务,图像分类是目标检测、语义分割的重要 支撑,其目标是将不同的图像划分到不同的类别,并实现最小的 分类误差。经过 近 30 年的研究,图像分类已经成功应用至社会生活的方方面面。如今,在我们 的生活中随处可见,例如智能手机的相册自动分类、产品缺陷识别、无人驾驶等 等。根据分类任务的目标不同,可以将图像分类任务划分成两部分:( 1)单标 签图像分类;( 2)多标签图像分类。 2.2.1 单标签分类 单标签分类是简单的分类任务,图片的内容相对简单,只包含一个物体或者 场景。单标签图像分类是指每张图片对应一个类别标签,根据物体类别的数量, 又可以将单标签图像分类划分成二分类、多类别分类。 2.2.2 多标签分类 早期的图像分类方法主要对图像进行二分类或多类别分类 ,每次只需为图像 选择一个类别标签,这是最常见的单标签分类方法。然而,在真实世界中,一幅 图像往往不只包含单一的语义,因此,多标签学习方法在实际应用中更具有现实 意义,这也更加符合人的认知习惯。多标签图像分类可以告知我们图像中是否同 时包含这些内容,这也能够更好地解决实际生活中的问题。 11 技术篇 2.3 图像检测与定位 物体检测为许多视觉任务提供了动力,例如实例分割 32、姿势估计 33-35、追 踪 36和动作识别 37。它在监视 38、自动驾驶 39和视觉问答 40中具有下游应用。 物体检测器通过紧密围绕物体的轴对齐边界框来表示每个物体 41-46。然后,他们 将物体检测简化为具有大量潜在对象边界框的图像分类。对于每个边界框,分类 器确定图像内容是特定的物体还是背景。单级检测器 44-45在图像上滑动可能的边 界框(称为锚点)的复杂排列,并在不指定框内容的情况下直接对其进行分类。 两级检测器 41-42,44-46重新计算每个电位盒的图像特征,然后对这些特征进行分类。 2.3.1 物体定位 目标检测的主要目的是从图片中检测并定位特定的多个目标。传统检测模型 通常采用人 工特征提取方法获得目标的特征描述,然后输入到一个分类器中学习 分类规则。传统方法的弊端:一是人工提取特征方法复杂,并需要对检测目标有 一定的先验知识;二是分离特征提取和分类训练,若特征提取不够好,训练就难 以有好效果;三是高度依赖具体任务,可移植性差,一旦检测目标有较大变动, 就要重新设计算法 47。卷积神经网络通过卷积运算让计算机自动从图像中提取 目标特征,这样获得的特征更自然,并且通用性好,对一定程度的扭曲形变有良 好的鲁棒性,并且在图像分类上取得了巨大成功,使得人们开始研究它在计算机 视觉其他领域的效果。 2.3.2 关键点检测 关键点检测是许多计算机视觉任务的基础,广泛应用于公共安全、智能人机 交互、自动驾驶、步态识别等场景。基于深度学习的人体关键点检测虽然发展时 间很短,但是发展迅猛,近几年涌现出很多优秀的关键点检测算法,比如 CPM48、 SHN49、 CPN50、 RMPE34等等。 2.4 图像分割 对于一张图来说,图上可能有多个物体、多个人物甚至多层背景,希望能做 到对于原图上的每个像素点都能预测它是属于哪个部分(人、动物、背景)。 2.4.1 语义分割 图像语义分割的目标是对图像中每一个像素点进 行类别预测,因此又称为密 集像素点预测,语义分割网络的输入一般是 RGB 图像,输出也是图像,输出图 12 技术篇 像中每个像素点的数值为类别编号。图像中属于同一类别的像素点会被划分为同 一颜色表现,不同类别的像素被分割为不同颜色的区块,如 图 4 所示,输入图像 被分割为行人、自行车、背景三种类别,其中,行人类别使用棕红色表示,自行 车类别使用绿色来表示,背景类别使用黑色表示。 图 4 语义分割示例 2.4.2 实例分割 实例分割(下图右下角)其实就是目标检测和语义分割的结合。相对目标检 测的边界框,实例分割可精确到物体的边缘;相对语义分割,实例分割需要标注 出图上同一物体的不同个体。如 图 5 所示,在一张含有三只不同羊和一条狗的图 片上,实例分割需要识别出不同羊的形状,而语义分割则无需分辨出不同羊的轮 廓。相较于语义分割而言,实例分割更接近我们人类对世界的认知,而且允许对 场景构成元素直接进行后续处理,如对行人进行动作识别等。实例分割综合了目 标检测和语义分割等多个任务,实现起来也具有一定的挑战性,当前最优秀的实 例级分割方法是深度卷积神经网络。 图 5 实例分割示例 13 技术篇 2.4.3 全景分 割 与之前介绍的语义分割与实例分割不同,全景分割任务( Panoptic Segmentation)要求图像中的每个像素点都必须被分配给一个语义标签和一个实 例 id,如果无法确定可以给予空标注。其中,语义标签指的是物体的类别,而实 例 id 则对应同类物体的不同编号。与语义分割相比,全景分割的困难在于要优 化全连接网络的设计,使其网络结构能够区分不同类别的实例;而与实例分割相 比,由于全景分割要求每个像素只能有一个类别和 id 标注,因此不能出现实例 分割中的重叠现象。 2.5 目标识别 目标识别的目的在于判断场景(二维图像、 视频或三维图像)中是否存在感 兴趣目标,若存在则对其位置和姿态等信息进行估计 51,它是计算机视觉中非常 重要的一个研究方向。设计一个具有足够的通用性、稳健性,且简单实用的系统, 能够在各种环境下无需太多约束和人类的干预的情况下自动对场景中的目标进 行识别是目标识别研究的目的。目前目标识别在人类实际的生产和生活中具有非 常广泛的应用和实用价值,例如目标跟踪、视频监控、信息安全、自动驾驶、图 像检索、医学图像分析、无人机导航、遥感图像分析、国防系统等。 2.5.1 3D 目标识别 3D 目标识别,起初是对一些由简单的几何体组成的三维目标进行识别,例 如柱体、立方体、椎体等。但是由于这些简单几何体的表达能力有限,现实世界 中绝大多数物体很难由这些简单的几何体组合表示。因此过去的二十多年间,三 维目标识别主要是对自由形状的三维目标进行识别 32。自由形状是除了在边缘、 顶点和拐角处外其余部分都有连续的法线构成的三维形状,现实世界中的绝大部 分目标都可以认为是自由形状的目标,如人体、建筑物、雕塑、汽车等。目前的 三维目标识别方法主要有:基于模型的方法;基于外观的方法;基于全局特征的 方法。 基于模型的方法 该方法需要待识别物体模型的先验知识,建立模型库。该算法的流程如 图 6 所示,首先为待识别的目标设计三维模型,并建立模型库;其次通过传感器获取 待识别的真实目标的三维数据;然后对三维数据进行分析;最后进行模型匹配。 14 技术篇 图 6 基于模型的 3D 目标识别方法流程 基于外观的方法 该方法是通过目标外观的相似性进行识别,其无需提前建立三维模型。该方 法的步骤为:首先通过训练学习待识别的三维目标在二维图形中呈现的各种姿态; 然后通过分析场景二维图形中各个物体的姿态,判断是否存在待识别的目标。 基于全局特征的方法 该方法在目标识别过程中将三维目标作为一个整体,提取整个三维目标的全 局特征进行识别。这类方法速度非常快,在三维形状分类和检索中广泛应用,现 有的典型方法有视点特征直方图 52、三维几何距离 53以及形状分布 32等。 2.5.2 点云目标识别 随着计算机视觉技术的 快速发展,基于三维点云数据的目标识别研究受到越 来越广泛的关注。三维点云数据的目标识别一般包括特征表达和特征匹配策略两 个部分,而匹配识别算法是关键组成部分,也是目前急需要攻克的难点。物体特 征可以分类为全局特征和局部特征,特征匹配的算法可以分为直接特征点匹配与 间接特征点匹配方法。目前,基于三维点云数据的目标识别方法有多种,国内外 许多专家学者对此做了大量的深入研究,并取得丰硕的成果。 上世纪八十年代中期, Besl 等提出一种三维形状的配准方法,称为最邻近迭 代( Iterative Close Point, ICP)算 法 54。 ICP 算法的主要思想是利用迭代的原理, 找到刚性变换矩阵 T,使得场景中的点 S 和几何模型中的点 M 达到最优匹配。 该算法可以准确有效地解决自由形态的点云配准问题,但其主要针对的是全局匹 配,对于局部匹配需要多次平移和旋转,计算量显著增大,准确度也有所降低, 效果不佳,且鲁棒性不好,对于有闭塞的情况更难以有效解决。 Gregory C. Sharp 等提出改进的 ICP 方法,使用欧几里得几何学的不变特征结合 ICP 算法进行配 准,称之为 ICPIF 算法 55。该方法能够有效地解决深度图像配准难的问题,但计 15 技术篇 算量依然比较 大。 A. Johnson 和 M. Hebert56提出一种“利用旋转图像有效识别 杂乱三维场景下的目标”的方法。该方法提出使用旋转图像,模型用曲面网格表 示,并由三维点转为二维空间点和参数表示的旋转图像。该方法可靠性好,但过 程比较复杂。 Mahmoudi 等提出将三维数据降到二维平面,通过三维特征和二维 边界点的曲率分布特征实现目标识别 57。 2.6 专利申请情况 根据专家推荐的“计算机视觉”领域关键词,从智慧芽专利数据库 ( 2000 至 2019 年期间“标题和摘 要”中包含领域关键词的申请专利 66,519 件,具体如 图 7 错误 !未找到引用源。 所示。 图 7 计算机视觉领域专利申请情况 过去 20 年,计算机视觉领域的专利申请量整体呈现上升态势,并在 2017 年 达到顶峰, 2018 年以后领域专利申请热度有所降低,申请量首次出现连续两年 下滑。 2.6.1 全球专利申请概况 从拥有专利的国家排名来看,中国( 20,830 件)、美国( 18,692 件)和日本 ( 5,945 件)是申请计算机视觉领域专利最多的三个国家(见 图 8)。中国申请的 领域专利数量最多,但是领先地位是在 2011 年以后才开始出现的,并在此之后 一直处于领域专利申请数量的首位。 16 技术篇 图 8 全球计算机视觉专利 TOP 3 国家年变化趋势 2.6.2 中国专利申请概况 图 9 中国计算机视觉领域专利申请量 TOP 10 省市 从拥有专利的各省排名来看,北京、广东和江苏等经济发达省市的专利申请 数量最多(见 图 9)。 图 10 是排名前三省市的专利年变化趋势,从图中可以看 出,各省的专利申请数量都呈现稳定的上升态势,尤其是具备较强 产业转化能力 的广东省,在 2018 年以后甚至超越了人才高度聚集的北京市,成为申请计算机 视觉领域专利申请量最多的省份。 17 技术篇 图 10 中国计算机视觉专利 TOP 3 省市年变化趋势 2.7 国家自然科学基金支持情况 根据“计算机视觉”领域关键词,从 AMiner 数据库中查找出 2010 至 2020 年国家自然科学基金支持的图数据库相关项目(包含未结题的项目) 1,052 个, 其中面上项目( 451 个, 42.87%)和青年科学基金项目( 444 个, 42.21%)的占 比最高,具体分布如下所示。 图 11 国家自然科学基金分布情况 国家自然科学基金项目数量前十的依托单位如 图 12 所示。由图可见,中国 科学院自动化研究所是项目批准量最多的机构,共计有 60 个,其中面上项目 27 18 技术篇 个,青年科学基金项目 22 个。另外,电子科技大学的青年科技学者表现不俗, 是其中唯一一个青年项目数量多于面上项目的机构,展现出较大的发展潜力。 图 12 国家自然科学基金项目量前十的依托单位 19 技术篇 3.人才篇 19 人才 篇 在大数据 时代 , 计算机视觉 技术不断迭代更新, 覆盖人群和 应用 场景逐渐 扩 大, 计算机视觉领域的 众多学者专家们 也在 不断探索与研究。本 篇将对本领域学 者的分布情况和代表性学者进行简要介绍。 计算机视觉 领域学者筛选的具体方法如下:首先,通过 AMiner 大数据平台 挖掘计算机视觉领域学术会议及期刊 : IEEE 国际计算机视觉与模式识别会议 ( IEEE Conference on Computer Vision and Pattern Recognition, CVPR)、 IEEE 国 际计算机视觉大会( IEEE International Conference on Computer Vision, ICCV)、 欧洲计算机视觉国际会议( European Conference on Computer Vision, ECCV)、 IEEE 模式分析和机器智能学报( IEEE Transactions on Pattern Analysis and Machine Intelligence, PAMI)、国际计算机视觉杂志( International Journal on Computer Vision, IJCV)、 IEEE 图像处理汇刊( IEEE Transactions on Image Processing, TIP)、 计算机视觉和图像理解( Computer Vision and Image Understanding, CVIU)、模 式识别( Pattern Recognition, PR)、模式识别快报( Pattern Recognition Letters, PRL) 的近 20 年论文,提取论文中所有学者信息,以此分析学者的分布情况。从中选 出与计算机视觉领域关键词相关 学者 22,883 位,再按照学者的 h-index 进行排 序,最后对其中排名靠前的部分学者进行简要介绍。领域关键词由 计算机视觉 顾 问组给出,具体包括 计算机视觉( Computer vision)、图像和视频采集( Image and video acquisiton)、图像识别( Image recognition)、模式识别 ( Pattern recognition)、 图像理解( Image understanding)、图像分类( Image classification)、目标检测 ( Object detection)、目标跟踪( Object tracking)、语义分割( Semantic segmentation)、 实例分割( Instance segmentation)、卷积神经网络( Convolutional neural networks)、 三维视觉( 3D vision)、光流估计( Optical flow estimation)、景深估计( Scene depth estimation)、人脸识别( Face recognition)、图像生成( Image generation)。 3.1 计算机视觉学者 概览 3.1.1 全球学者 概况 学者地图 学者分布地图对于计算机视觉领域学者调查、分析各地区竞争力现况尤为重 要, 图 13 为计算机视觉领域全球顶尖学者分布情况。其中,颜色越趋近于红色, 表示学者越集中;颜色越趋近于绿色,表示学者越稀少。在全球范围内,计算机 20 人才篇 视觉的顶尖学者主要分布于东亚、北美以及欧洲,此外,南美、澳大利亚等地亦 有部分学者分布。 图 13 计算机视觉全球顶尖学者分布 国家对比 根据 AMiner 平台数据分析不同国家“计算机视觉”领域学者的数量,具体 分析方法为根据论文作者的国家信息,将论文分类到各个国家中,从而统计出每 个 国家的学者数量。 图 14 展示了领域学者数量前 10 的国家,由图可知,中国位 居全球第一,随后为美国、 英国、 日本、德国等。 图 14 计算机视觉 学 者数量 Top 10 国家 学者 h-index 分布 21 人才 篇 h-index 是衡量一位学者影响力的重要指标之一,利用 AMiner 大数据平台统 计计算机视觉领域排名前 2000 位学者的 h-index,具体分布如下图所示。其中, h-index 在 3040 之间的人数最多为 1,413 人,占总学者数量的 70.65%; h-index 超过 60 的学者为 227 人,占总学者数量的 11.35%( 图 15)。 图 15 计算机视觉学者 h-index 分布 学者迁徙 图 16 计算机视觉全球学者迁徙图 AMiner 可以对计算机视觉领域学者的迁徙量进行分析,如 图 16 所示。全球 计算机视觉领域流动总量最高的是美国,遥遥领先于排名第二的中国,随后为英 1413 215 145 227 1 201 401 601 801 1001 1201 1401 1601 3040 4050 5060 60 以上 人数 h-in de x 22 人才篇 国、德国和法国等。此外,美国、德国、法国的人才流入大于人才流出,领域人 才有所聚集;而中国和英国的人才流入量小于人才流出,出现领域人才流失现象。 机构对比 通过 AMiner 平台挖掘论文中的作者单位信息,将论文映射到各个单位机构 中,统计每个机构的论文发表数量,并按照论文发表数量从高到低对机构进行了 排序,如 图 17 所示。 图 17 计算机视觉学术机构对比 从上图可以看出,中国、美国、日本、英国和德国拥有的顶尖科研机构最多。 其中,中国科研机构发表的论文数量最多,排名前三的机构分别为中国科学院、 浙江大学和清华大学。美国科研机构紧随其后,发表论文总数位居世界第二,其 中排名前三的科研机构分别为卡内基梅隆大学、 麻省理工学院和明尼苏达大学。 3.1.2 中国 学者 概况 中国学者分布 中国计算机视觉领域人才分布如 图 18 所示 ,领域学者大部分聚集于北京地 区。与此同时,江苏、上海、辽宁、湖北、广东等地同样分布着可观数量的计算 机视觉领域学者。北京地区学者主要聚集在以北大、清华、亚洲微软研究院为首 的海淀人才汇集地,人才密度可谓 在世界范围内都首屈一指,为该领域的发展提 供了强大的人才保障。此外,香港、深圳、广州等城市在发展计算机视觉产业上 23 人才 篇 各具优势及特色,从研发成果产
展开阅读全文
相关资源
相关搜索
资源标签

copyright@ 2017-2022 报告吧 版权所有
经营许可证编号:宁ICP备17002310号 | 增值电信业务经营许可证编号:宁B2-20200018  | 宁公网安备64010602000642