2018-2019计算机视觉与三维重建技术研究报告.pptx

返回 相关 举报
2018-2019计算机视觉与三维重建技术研究报告.pptx_第1页
第1页 / 共33页
2018-2019计算机视觉与三维重建技术研究报告.pptx_第2页
第2页 / 共33页
2018-2019计算机视觉与三维重建技术研究报告.pptx_第3页
第3页 / 共33页
2018-2019计算机视觉与三维重建技术研究报告.pptx_第4页
第4页 / 共33页
2018-2019计算机视觉与三维重建技术研究报告.pptx_第5页
第5页 / 共33页
亲,该文档总共33页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
2018.12,2018-2019计算机视觉与三维重建技术研究报告,1. 计算机视觉定义及发展历程2. 计算机视觉处理等级3. 图像处理的传统方法和新趋势4. 3D重建的传统方法和新趋势,CONTENTS,计算机视觉定义及发展历程,4,计算机视觉定义 计算机视觉是以图像(视频)为输入,以对环境的表达(representation)和理解为目标,研究图像信息组织、物体和场景识别、进而对事件给予解释的学科。从目前的研究现状看,目前还主要聚焦在图像信息的组织和识别阶段,对事件解释还处于非常初级的阶段。 物体识别、物体定位、物体三维形状恢复和运动分析,构成了目前计算机视觉的主要研究内容。 计算机视觉是一个跨领域的交叉学科,包括计算机科学(图形、算法、理论、系统、体系结构),数学(信息检索、机器学习),工程学(机器人、语音、自然语言处理、图像处理),物理学(光,情景/语义分割这个词在包括 NLP(自然语言处理)、语音等领域里出现,但是实际上在图像里面分割的意思跟在语音和 NLP 里面都很不一样,它其实是对图像中间的不同的元素进行像素级别的分割。比如最右这张图片,可以看到行人、车辆、路,还有后面的树,他们都用不同的颜色标注,其实每一种颜色就代表了一种语义,学 ),生物学(神经科学)和心理学(认知科学)等等人脸识别 自动驾驶,情景/语义分割,计算机视觉发展历程,5,分层重建理论(StratifiedReconstruction) 分层重建理论是上世纪90年代计算机视觉领域最活跃的研究内容。分层三维重建就是指从多幅二维图像恢复欧几里德空间的三维结构时,不是从图像一步到欧几里德空间下的三维结构,而是分步分层地进行,这种分层重建方法由于每一步重建过程中涉及到的未知变量少,几何意义明确,所以算法的鲁棒性得到了有效提高 分层三维重建理论可以说是计算机视觉界继马尔计算视觉理论提出后又一个最重要和最具有影响力的理论。目前很多大公司的三维视觉应用,如 apple公司的三维地图,百度公司的三维地图, 诺基亚的Streetview, 微软的虚拟地球,其后台核心支撑技术都是分层三维重建技术。,马尔视觉计算理论 1982年马尔视觉计算理论的提出,标志着计算机视觉成为了一门独立的学科。 马尔视觉计算理论包含二个主要观点:首先,马尔认为人类视觉的主要功能是复原三维场景的可见几何表面,即三维重建问题;其次,马尔认为这种从二维图像到三维几何结构的复原过程是可以通过计算完成的,并提出了从图像初始略图(sketch,图像中有特点的单元,如边缘、角点直线段等)物体2.5维描述(观测者坐标系下的三维几何形状表达)物体3维描述(物体坐标系下的表达)一套完整的计算理论和方法,基于学习的视觉 物体识别是计算机视觉的重要研究内容。随着基于图像的物体表达的提出和机器学习的进展,基于学习的视觉是近年来计算机视觉的研究热点。 所谓基于学习的视觉,就是指利用机器学习的手段来对图像物体进行识别的方法,包括对物体个体的识别(object identification)和对物体类别的分类(objectcategorization),基于几何的空间视觉,基于学习的物理视觉,计算机视觉处理等级,计算机视觉的三个等级,7, 这三个等级是从我们看对象的视野上来说的,Low level 代表我们离这个对象非常近,High level 代表比较远,计算机视觉的三个等级,低等级:,可以做图像的降噪、优化、压缩、包括边缘检测,离图片非常近的去看细节,中等级:,介于 High 跟 Low 之间,可以做分类、分割、对象检测等,高等级:,可以做情景理解、人脸识别、自动驾驶等,是从一个比较远的角度来看大局,计算机视觉处理分级:低等级和中等级,8, 通过 Low Level Processing 的降噪和优化可以得到清晰图片, Mid level Processing目前的技术比较成熟。这块的应用包括分类、分割、目标检测,也包括情景检测、情景分割,甚至还有意图检测,就是通过看图片里面的一些物体和他们目前在做的一些行为来判断他们的意图; 分类:图片里有只猫 分类+定位:图片里有只猫+猫在图片里的什么位置 对象检测:把图片里面所有对象全部标注检测出来 情景分割:不但要把对象全部标注出来,还要精确知道它们在图像的什么位置,并把前后景分割出来,分类、定位、检测、对象分割(目前已很成熟),计算机视觉处理分级:高等级,9, 高等级处理是目前非常热门和有前景,但是远未达到成熟的技术。目前做的最好的 High level Processing 就是人脸检测 High level图像的理解并不是简单的说画面上有哪些东西,而是他们之间的联系、细节。High level本身不仅能识别图上有什,么东西,它还能识别,应该做什么,他们的关系是什么。 High level是对象检测的一个复杂的多维度的应用,中间图片的对象树对两个孩子、他们的各种穿着,都进行了精确的分割和定义,包括他们手上持有的球拍,之间的关系,都有详细的描述,计算机视觉常见应用,10, 多重人脸识别(对同样的照片同样的人物进行归类)、ORC文字识别(文本扫描和识别照片转文字),有挑战性的计算机视觉任务:目标跟踪,11, 目标跟踪就是在连续的图片或者视频流里面,想要去追踪某一个指定的对象;, 机器在追踪对象的时候,大部分会使用最原始的一些方法,采取一些对目标图片进行形变的匹配,而这个方法在实际应用中间是非常难以实现的,因为需要跟踪的对象,由于角度、光照、遮挡的原因包括运动的时候,会变得模糊,还有相似背景的干扰,所以很难利用模板匹配这种方法去追踪这个对象;, 目前对象追踪的算法完全没有达到人脸识别的准确率,还有很多的人在不断的努力去寻找新的方法去提升,12,有挑战性的计算机视觉任务:多模态问题 多模态问题是指语音,文字,图像,语音,几种模态放在一起:需要把图片里面所有信息的全部解析出来,并且能准确的去关联他们的关系,同时这个模型还要能够理解用户的提问或指令到底是什么用意,VQA:给定一张图片,可以任意的去问它一些问题,一般是比较直接的一些问题,Who、Where、How,类似这些问题,这个多模态的模型要能够根据图片的真实信息去回答提出的问题。,Caption Generation:给定一张图片,然后对图片里面的东西进行描述,“根据一张图片去讲故事”。 这是现在非常流行的研究领域,即深度学习图像应用,图像处理的传统方法和新趋势,传统图像处理工具,14, 首先是滤波器,包括空间滤波器,傅里叶、小波滤波器等,这些都是对图像进行初期的处理经常使用的滤波器(在尽量,保留图像细节特征的条件下对目标图像的噪声进行抑制)。, 经过滤波以后,会对图像进行 Feature Design,就是要从图片中提取一些觉得比较重要的,可以用来做进一步的处理的一些参照的信息,然后利用信息进行分类(Classification) ,或者分割(Segmentatiion)等,这些应用已经都有了经典的一些方法和算法,图像处理的爆发深度神经网络,15, 现在非常热门,未来会更加热门的图形学研究是深度神经网络:神经网络的层数是不算输入层的,两层就是包括一个输入层,一个隐层,和一个输出层。所以有的时候,如果提到了一个单层网络,其实就是只有输入层和输出层 一个输入层和一个输出层,是所有神经网络必须的,中间的隐层才是真正不同的地方,不同的网络为了解决不同的问,题,会有不同的隐层。,图像处理的爆发深度神经网络,16, 对多重人脸识别设计的深度神经网络:输入层中间会做一些预处理,包括把图片转换成一些对比度图。第一个隐层是Face Features,从人脸上提取关键的特征值。第二个隐层开始做特征值匹配,最后的输出层就是对结果进行输出,一般就是分类。,图像处理的爆发深度神经网络,17, 神经网络的类型有多种:三角形,矩,形,矩形中间还有菱形。根据要实现的不同目的来考虑使用什么网络,常见的27种神经网络,卷积神经网络(CNN):目前应用最广泛的图像识别网络,18, 通常包含输入层、输出层,还有卷,积层、池化层。一般情况下,不仅仅做一次卷积,还会多次的做卷积,池化然后再卷积,利用这种方式去多次的降维,池化层其实在这个卷积神经网络中起一个作用,就是降低数据的维度, 卷积神经网络通过卷积和池化操作自动学习图像在各个层次上的特征,符合人类理解图像的常识:人在认知图像时是分层抽象的,首先理解的是颜色和亮度,然后是边缘、角点、直线等局部细节特征,接下来是纹理、几何形状等更复杂的信息和结构,最后形成整个物体的概念。,19,卷积神经网络的改良:R-CNN 卷积神经网络会将图像中的每个物体识别为对象或背景,因此需要在大量的位置和规模上使用卷积神经网络,但是这需要很大的计算量; 为了解决这一问题,神经网络研究人员建议使用区域(region)这一概念,找到可能包含对象的“斑点”图像区域,这样运行速度就会大大提高。这种模型是基于区域的卷积神经网络( R-CNN ),算法原理如下:1、在 R-CNN 中,首先使用选择性搜索算法扫描输入图像,寻找其中的可能对象,从而生成大约 2,000 个区域建议;2、然后,在这些区域建议上运行一个卷积神网络;3、最后,将每个卷积神经网络的输出传给支持向量机( SVM ),使用一个线性回归收紧对象的边界框。 将对象检测转换为图像分类问题。但是也存在:训,练速度慢,需要大量的磁盘空间,推理速度慢。,卷积神经网络的改良:Fast R-CNN,20, R-CNN 的第一个升级版本是 Fast R-CNN,通过使用了2 次增强,大大提了检测速度。Faster R-CNN 可能不是最简单或最快速的目,标检测方法,但仍然是性能最好的方法之一,21,深度神经网络处理多模态问题 “根据图片讲故事” :首先使用一个小说的数据库,对模型进行训练;其次根据图片里面的关健词和它的意图去匹配小说中间的文段,把有关的文段全部拿出来,拿出来这些文段有的是不成文章的,所以要进行下一轮的匹配,把这些文段中间的关键词再去进一步的在小说库里面去匹配,成段的文字,这就实现了一个 storyteller 除了最先对图像里面的对象识别过程使用的是监督学习(使用已知正确答案的示例来训练网络,需要标注),其他的都是无监督学习(适用于具有数据集但无标签的情况。无监督学习采用输入集,并尝试查找数据中的模式)。这个系统可以套用到不同的地方,只要换个不同的文章数据库,,就可以讲不同的故事。,3D重建的传统方法和新趋势,基于计算机视觉的三维重建,23, 基于计算机视觉的三维重建是给一个物体或场景拍摄一系列照片,计算出最能解释这些照片的三维图形,这些计算通常需要在给定的,材料,视角,和光照条件下进行。, 目前该技术已经广泛的应用于很多领域,包括医学系统、自主导航、航空及遥感测量、工业自动化等,可以实现全自动或半自动建模,,但在效率、精确性和鲁棒性上还存在难点和问题,24,常见技术方法概览三维重建获取数据,接触式利用某些仪器直接测,量场景的三维数据,非接触式在测量时不接触被测量的物体,通过光、,直接利用光学原理对场景或对象进行光学扫描,然后通过分析扫描得到的数据点云进行三维重,建,声音、磁场等媒介获取目标数据主动视觉被动视觉,通过分析图像序列中的各种信息,对物体建模进行逆向工程,从而得到场景或场景中物体的,三维模型,单目视觉,立体视觉,仅使用一台相机来进行三维重建,采用两台相机模拟人类双眼处理景物的方式,从两个视点观察同一场景,获得不同视角下的一对图像,然后通过左右图像间的匹配点恢复出场景中目标物体的三维信息,常见技术方法的比较,26,SLAMSimultaneous Localization and Mapping(同时定位与地图构建),来源于机器人学领域,现在是计算机视觉领域最重要的算法之一在线处理连续帧的图像,实时重建稀疏或稠密的场景实时构建3D地图,主要应用在室内机器人、无人机、无人驾驶、水下机器人等,SMF计算机视觉领域另外一个最重要的算法可以看做是离线版的VSLAM:重建是离线进行的,输入的图像可以是无序的,不局限于视频或连续帧大型结构重建所需时间从几小时到几天不等,SMF和SLAMSLAM与SFM的研究目的都是通过二维图像数据还原环境的三维几何结构,以及相机的空间位姿,27,SMF面临的问题和挑战SFM是对大规模场景进行高精度建模的第一步,典型的 SFM 问题遵循:给定一个单个室外结构(如大剧场/大体育馆)的大型照片集合,构建该结构的 3D 模型并确定每个相机的姿势, 鲁棒性问题:易受到光线、噪声、模糊等问题的影响,而且在匹配过程中,如果出现了匹配问题,可能会导致结果精度下降 完整性问题:在重建过程中可能由于丢失信息或不精确的信息而难以校准图像,从而不能完整地重建场景结构,0102, 运算量问题:目前存在的主要问题是运算量太大,导致三维重建的时间较长,效率较低,03,特征提取与匹配等一直都无法得到最优化的解决,导致该方法易用性和精确度等指标无法得到更大提高,04, 改进算法:结合应用场景,改进图像预处理和匹配技术,减少光线、噪声、模糊等问题的影响,提高匹配准确度,增强算法鲁棒性 信息融合:充分利用图像中包含的各种信息,使用不同类型传感器进行信息融合,丰富信息,提高完整度和通用性,完,善建模效果,0102, 使用分布式计算:针对运算量过大的问题,采用计算机集群计算、网络云计算以及GPU计算等方式来提高运算速度,,缩短重建时间,提高重建效率 精确性问题:目前SFM中的每一个步骤,如相机标定、图像,03, 分步优化:对SFM方法中的每一个步骤进行优化,提高方法的易用性和精确度,使三维重建的整体效果得到提升,04,SLAM的发展现状和趋势,28,基于稀疏特征的SLAM 视觉特征的提取是这类技术的关键,良好的特征应该具有尺度和旋转的不变性,能够应用的环境应该具有大量的视觉特征,如特征点,角,线等; 在无特征或特征都一致的环境,,如空屋子或高速公路等,则难以取得好的估计效果,稠密SLAM和半稠密SLAM 有些环境没有显著特征,也有时使用稀疏特征会丢掉大量的视觉信息,直接或稠密的SLAM方法可在一定程度上适应这类环境 直接或稠密的SLAM方法不提取特征,而是通过直接比较两帧图,像所有像素光强度的不同来优化估计移动平台的位置与方向变化,即用最小化光测误差来定位相机 由于稠密重建所需的计算量和储存量都较大,通常需要用GPU加速计算,基于深度学习的SLAM 先自动提取特征,而不是手动提取,特别是当可以得到非常大规模的数据集时,它有可能得到更有效可靠的特征,从而提高SLAM鲁棒性 最新无监督学习的SLAM已经和,有监督学习的SLAM性能接近。通过在规模不断增加的未标记数据集中进行学习,无监督学习的SLAM会使得系统性能不断提升 需要大量的离线GPU学习训练,训练深度学习网络需要更多更具有代表性的大量数据集,收集这样的数据集需要大量的工作,基于视觉几何模型的计算:并不能从原始图像中自主学习,也不能从不断增加的数据集中获益,其中一些在挑战性的场景中很脆弱,常用于训练的三种数据集分别是:ImageNet数据集包含150万张图像,有1000个类别。MicrosoftCommon Objects inContext(COCO)数据集包含250万张图像,有91个类别。PASCAL VOC数据集包含500万张图像,有20个类别。,传统的计算机视觉(特征提取)VS深度神经网络(端到端学习),特征提取 从统一类别对象的图像中(椅子、马等)提取尽可能多的特征,并将这些特征视为对象的一个“定义”,然后在其他图像中搜索这些“定义”,如果词袋模型中有相当一部分的特征都可以在这幅图像中找到,那么这幅图像被分类为包含该特定对象的类别(椅子,马等)。难点: 在给定图像中,必须选择需要查找哪些特征。当图像中类别过多时(如10或20个类别),就会变得复杂而难以分类 只有使用不同的特征才可以更好地描述不同类别的对象。如果在分类时使用很多特征,就必须对大量的参数进行微调。,端到端学习 针对每个特定类别的对象,机器会自动学习需要查找什么特征。它为每个对象提供了最具描述性和显著性的特征。换句话说,神经网络可以探索图像类别中的底层模式。难点: 需要训练大量的数据,需要训练很长的时间 在训练数据范围之外的数据上进行泛化比较困难(无监督学习和对抗式学习) 训练模型表现不佳时手动调参相当困难,因为深度学习模型里面有数百万个参数,每个参数在训练过程中都需要调 29 整。,计算机视觉的发展趋势,30,基于学习的物体视觉和基于几何的空间视觉继续“相互独立”进行,深度学习在短时期内很难代替几何视觉,对物体识别而言,基于深度学习的物体识别估计将从“通用识别”向“特定领域物体的识别”发展。“特定领域”可以提供更加明确和具体的先验信息,可以有效提高识别的精度和效率,更加具有实用性;,具有“反馈机制”的深度网络结构(architecture)研究必将是下一个研究热点(有效定位到感兴趣目标并能有效提升模型识别能力),计算机视觉发展的最新动态, 通过单视图(单张平面图片)图片生成三维模型,将深度生成模型与对抗学习的形状先验相结合的ShapeHD,从图像集合中学习特定类别的网格重建 对于单视图形状重建,ShapeHD 包含三个组件:(I)用于预测单个图像的深度、表面法线和轮廓图像的 2.5D 轮廓估计器;(II)3D 形状补全模块,该模块根据轮廓掩膜深度和表面法线图像补全 3D 形状;(III)用作自然损失函数的对抗预训练卷积网。在微调 3D 形状补全网络时,我们使用两种损失函数:输出形状的监督损失,以及预训练鉴别器提供的自然损失。 来自物理扫描仪的深度数据的 3D 形状补全的结果。研究者的模型能够从单视图中很好地重建形状。从左到右:输入的深度图片,补全结果的两个视图以及对象的彩色图像。31,计算机视觉发展的最新动态 可视化物体网络(VON):通过生成式对抗网络来生成3D图片,不仅能生成3D图片,甚至还能修改图形, 在3个独立维度上拆分3D物体的元素。给出一个3D图片,只要改变物体的视角、形状、材质这些参数,就能获得想要的图形, 对相同类型、相同视角的物体,如果给出两种不同形状、材质的图片,能从中“线性插入”图片,有上图中渐变的效果, 给合成的3D图形输入一张真实图片,它甚至还能根据这个物体的材质“推理”出类似图片,实现“基于样品的材质转换”32,2018-12,Thanks,
展开阅读全文
相关资源
相关搜索
资源标签

copyright@ 2017-2022 报告吧 版权所有
经营许可证编号:宁ICP备17002310号 | 增值电信业务经营许可证编号:宁B2-20200018  | 宁公网安备64010602000642