资源描述
附件35G 高 新 视 频 VR 视 频 技 术 白 皮 书 ( 2020) 国家广播电视总局科技司2020 年8月 1I 前 言当前,移动信息技术飞速发展,5G 技术已经成为国际通信科技巨头竞争的新焦点,世界各国纷纷将5G 建设视为重要目标。5G 技术具有“大带宽、低时延、广连接”等特点,在5G 众多应用场景中,视频被公认为是5G 时代最重要和最早开展的业务,越来越受到社会各界的广泛关注。在 5G、超高清、虚拟现实等新兴技术催生下,广电行业视听内容的生产和传播即将发生新变革。国家广播电视总局顺应技术革命浪潮,抢抓5G 发展机遇,深入推进5G 条件下广播电视供给侧结构性改革,推动构建5G 视频新业态,提出了“5G 高新视频”的概念。5G 高新视频是指5G 环境下具有“更高技术格式、更新应用场景、更美视听体验”的视频。其中,“高”是指视频融合 4K/8K、3D、VR/AR/MR、高帧率(HFR)、 高动态范围(HDR)、广色域(WCG)等高技术格式;“新”是指具有新奇的影像语言和视觉体验的创新应用场景,能够吸引观众兴趣并促使其产生消费。在5G 环境下,广电行业将发挥在视音频内容创意、生产、制作和传播方面的丰富资源和天然优势,以文化创意为牵引,以科技创新为支撑,培育孵化5G 高新视频的新技术、新应用、新产品、新模式、新业态和新消费,为观众带来更美的视听体验,更好地满足人民群众日益增长的精神文化新需求和新期待。VR 视频作为高新视频业态的重要组成部分,是指全景视频,如水平360垂直360全景视频、水平180垂直180全景视频等,用户可借助VR 眼镜等虚拟现实设备观看全景视频,并获得身临其境的视觉感受。为更好地推进 VR 视频发展,指导相关行业与机构开展 VR 视频业务,提高 VR 视频质量,促进 VR 视频业态良性发展,国家广播电视总局科技司组织广播电视科学研究院及行业相关机构、企业等,开展了VR 视频研究工作,编制了5G 高新视频VR 视频技术白皮书(2020 版)(以下简称白皮书)。本白皮书分析了 VR 视频的基本概念,深入探讨了 VR 视频关键技术,梳理了VR 视频国内外技术标准现状,总结了VR 视频在广播电视及新媒体领域中的应用案例,提出了VR 视频端到端解决方案,最后分析了目前VR 视频应用中遇到的问题和未来发展前景。希望本白皮书能为推动 VR 视频的应用提供参考,为推动广播电视行业转型升级注入新动能、激发新活力,促进广播电视和网络视听行业高质量创新性发展。 II 本白皮书指导单位:国家广播电视总局科技司本白皮书主要起草单位:国家广播电视总局广播电视科学研究院、中央广播电视总台、中广电广播电影电视设计研究院、北京未来媒体科技股份有限公司、华为技术有限公司、深圳市天威视讯股份有限公司、大连天途有线电视网络股份有限公司、北京大学深圳研究生院、中兴通讯股份有限公司、四川传媒学院、杭州当虹科技股份有限公司、深圳市腾讯计算机系统有限公司、飞利浦(中国)投资有限公司、北京视博云科技有限公司、北京小鸟看看科技有限公司、深圳市圆周率软件科技有限责任公司、上海海思技术有限公司、深圳创维新世界科技有限公司。本白皮书编写指导:孙苏川、关丽霞本白皮书主要起草人:郭晓强、王强、孙可、魏娜、周芸、胡潇、谭阳、范晓 轩、周屹、王倩、李大为、王琛、吕福明、王荣刚、罗浚兮、周乐、向东、冉峡、陈勇、许晓中、张峰昌、牛长峰、张瑞生、郭斐、宋海龙、张毅。 1 目 录缩略语.31. 5G 高新视频VR 视频概述.61.1 基本概念.61.2 3DoF VR 和6DoF VR.61.3 观看VR视频的典型流程.72. VR 视频关键技术.92.1 VR 视频端到端系统框图.92.2 VR 视频节目制作与交换用视频参数.92.3 VR 视频拍摄制作与拼接.102.3.1 拍摄制作方法.102.3.2 视频拼接算法.11 2.4 VR 视频映射及压缩编码.122.4.1 映射.132.4.2 压缩编码.162.5 VR 视频传输.172.5.1 传输所需带宽.172.5.2 传输方案.172.6 VR 视频终端渲染显示.182.6.1 基本流程.182.6.2 渲染.192.6.3 显示.202.7 VR 视频感知交互.212.8 6DoF.212.8.1 拍摄制作方法.21 2.8.2 编解码.242.8.3 终端渲染显示.253. VR 视频国内外技术标准.273.1 VR 视频国外技术标准.273.1.1 ITU.273.1.2 MPEG.273.1.3 DVB.283.1.4 SMPTE.293.1.5 3GPP.293.1.6 JPEG.293.1.7 IEEE.303.2 VR 视频国内技术标准.304. VR 视频在广播电视及新媒体领域中的应用.33 4.1 国外VR应用试验.334.1.1 日本.334.1.2 韩国.344.1.3 美国.34 2 4.1.4 欧洲.354.1.5 国际互联网企业.354.2 国内VR应用试验.364.2.1 电视台.364.2.2 有线电视网络/IPTV.404.2.3 国内互联网企业.425. VR 视频端到端解决方案.445.1 VR 视频端到端解决方案系统架构.445.2 VR 视频拍摄制作域解决方案.465.2.1 VR 视频拍摄制作工艺流程.465.2.2 VR 视频拍摄方式.475.3 VR 视频业务平台方案.495.3.1 VR 视频直播/点播平台.49 5.3.2 VR 视频直播/点播平台技术指标.505.3.3 VR 视频直播/点播平台部署.515.4 VR 视频网络传输方案.515.4.1 基于有线电视网络/IPTV的VR 视频传输方案.525.4.2 基于5G 网络的VR视频传输方案.525.5 VR 视频终端.536. VR 视频应用的挑战与前景.556.1 VR 视频节目制作域.556.1.1 拍摄指导.556.1.2 映射.556.1.3 制作流程和创作工具.556.2 VR 视频传输分发域.566.2.1 高传输码率.56 6.2.2 VR 分发格式.566.3 VR 视频终端消费域.566.4 发展前景展望.57参考文献.58 13 缩略语缩略语 英文全称 中文全称3DoF Three Degrees of Freedom 三自由度3GPP 3rd Generation Partnership Project 第三代合作伙伴计划5G 5th Generation Mobile Networks 第五代移动通信网络6DoF Six Degrees of Freedom 六自由度AI Artificial Intelligence 人工智能APP Application 应用程序 AR Augmented Reality 增强现实AVS Audio Video Coding Standard 音视频编码标准CDN Content Delivery Network 内容分发网络CG Computer Graphics 计算机图形学CMP Cube Map Projection 正六面体映射CPU Central Processing Unit 中央处理器DASH Dynamic Adaptive Streaming over HTTP 基于 HTTP 的动态自适应流DIBR Depth Image Based Rendering 基于深度的图像渲染DNS Domain Name System 域名系统 DVB Digital Video Broadcasting 数字视频广播EAC Equi-Angular Cubemaps 等角方块ERP Equi-Rectangular Projection 等距圆柱映射FOV Field of View 视角GPU Graphics Processing Unit 图形处理器HTML Hyper Text Markup Language 超文本标记语言HDR High Dynamic Range 高动态范围HFR High Frame Rate 高帧率 HLS HTTP Live Streaming 基于 HTTP 的流媒体网络传输协议HMD Head Mounted Display 头戴式显示器HTTP Hyper Text Transfer Protocol 超文本传输协议 4 缩略语 英文全称 中文全称HTTPS Hyper Text Transfer Protocol over Secure SocketLayer 安全套接层超文本传输协议IEEE Institute of Electrical and ElectronicsEngineers 电气和电子工程师协会ILE Immersive Live Experience 沉浸式现场体验IP Internet Protocol 网际互连协议ISP Icosahedron Projection 正二十面体映射ITU International Telecommunication Union 国际电信联盟JPEG Joint Photographic Experts Group 联合图像专家组 MMT Multi-Media Terminal 多媒体终端MPEG Moving Picture Experts Group 运动图像专家组MR Mixed Reality 混合现实NDI Network Device Interface 网络设备接口NPU Neural Network Processing Unit 嵌入式神经网络处理器OHP Octahedron Projection 正八面体映射OLED Organic Light Emitting Diode 有机发光二极管OMAF Omnidirectional Media Application Format 全景媒体应用格式 PGC Professional Generated Content 专业生产内容PPD Pixel Per Degree 像素/度QoE Quality of Experience 体验质量QoS Quality of Service 服务质量RAN Radio Access Network 无线接入网ROI Region of Interest 感兴趣区域RTMP Real Time Messaging Protocol 实时消息传输协议SDK Software Development Kit 软件开发工具包SDR Standard Dynamic Range 标准动态范围 SLA Service Level Agreement 服务级别协议SMPTE Society of Motion Picture andTelevision Engineers 电影和电视工程师协会SSP Segmented Sphere Projection 分区域球体映射 5 缩略语 英文全称 中文全称TSP Truncated Square Pyramid 截体金字塔UDP User Datagram Protocol 用户数据报协议UGC User Generated Content 用户生产内容VBR Variable Bit Rate 可变比特率VR Virtual Reality 虚拟现实WCG Wide Color Gamut 广色域 6 1. 5G 高新视频VR 视频概述1.1 基本概念VR 通过动态环境建模、实时三维图形生成、立体显示观看、实时交互等技术,生成仿真现实的三维模拟环境,能够构造视觉、听觉等方面高度主观真实的人体感官感受。用户借助交互设备与虚拟场景中的对象相互作用、相互影响、沉浸其中,获得等同亲临客观真实环境的感受和体验。AR 是在VR 的基础上,运用多媒体、三维建模、实时跟踪、智能交互、传感等多种技术手段,将计算机生成的文字、图像、三维模型、音乐、视频等虚拟信息模拟仿真后,应用到真实世界中,两种信息互为补充,从而实现对真实世界的“增强”。 MR 是VR 技术的进一步发展,该技术通过在现实场景呈现虚拟场景信息,在现实世界、虚拟世界和用户之间搭起一个交互反馈的信息回路,以增强用户体验的真实感。VR 视频是指全景视频,如水平 360垂直 360全景视频、水平 180垂直 180全景视频等,用户可借助 VR 眼镜等虚拟现实设备观看全景视频,并获得身临其境的视觉感受。考虑到技术成熟度,本白皮书涉及的内容主要讨论3DoF VR视频, 6DoF VR 视频是未来发展方向,本白皮书在 2.8 节给出一定的技术说明,3DoF VR 和6DoF VR 的概念见1.2 节。此外,VR 视频系统还包含配套的音频内容,本白皮书暂不涉及。1.2 3DoF VR 和 6DoF VR (1)3DoF3DoF 是指用户可以在任何方向(偏转、俯仰和滚动)自由地观看节目素材。典型的应用场景是坐在椅子上的用户通过HMD 观看VR 视频内容,如图1所示。(2)3DoF+3DoF+是指用户可以在任何方向(偏转、俯仰和滚动)自由地观看节目素材,同时用户头部可以进行一定的平移运动。典型的应用场景是坐在椅子上的用户通过HMD 观看 VR 视频内容,并且用户头部可以进行小幅度的上下、左右、前后移动,如图1所示。 7 (3)6DoF6DoF 是指用户可以在物理空间内任何位置、任何方向自由地观看节目素材。用户移动可以被传感器或输入控制器捕获到,同时支持用户空间位移和头部姿态变化。典型的应用场景是用户自由走动并同时通过 HMD 观看 VR 视频内容,如图1 所示。 Report .2420-02BT 3DoF 3DoF+ 6DoF Up Up RightRight Forward Forward Backward LeftLeft Backward Roll Pitch Yaw Roll Pitch Yaw Roll Pitch Yaw Down Down图1 各类DoF 示意图1.3 观看 VR 视频的典型流程观看VR 视频时,用户需佩戴VR 眼镜(配合手机使用)或HMD,运行在用户手机或机顶盒等设备上的VR视频应用软件启动并初始化VR眼镜或HMD中的陀螺仪等传感器装置,用户通过遥控器、手柄等输入设备与VR 视频应用软件进行实时交互。当用户头部发生运动时,VR 眼镜或 HMD 中的陀螺仪等传感器装置实时检测头部的 运动状态,并将其参数传递给 VR 视频应用软件的处理模块。处理模块获取到用户头部的运动状态参数后,VR 视频应用软件立即计算用户的观看视角并重新渲染新的一帧图像传递至VR 眼镜或HMD 上,用户可以进行实时观看。观看VR 视频的典型系统流程如图2所示。 8 开 始 软 件 启 动初 始 化 传 感 器 在 VR眼 镜 或HMD上 显 示 每一 帧 图 像 逐 帧 图 像 渲 染 实 时 交 互 VR视 频 应 用 软 件 图2 观看VR 视频的典型系统流程 9 2. VR 视频关键技术2.1 VR 视频端到端系统框图典型的 VR 视频端到端系统框图如图 3 所示,包括 VR 视频源、VR 视频编码、VR视频传输和VR视频终端接收和显示4个部分。图中通路是实时直播应用场景,通路为非实时点播应用场景。实时直播应用场景与非实时点播应用场景的区别在于:实时直播采用实时拍摄、拼接的 VR 视频源信号,而非实时点播则采用已经制作完成的VR 视频源文件。两种信号进入VR 视频编码环节及其之后环节的技术流程一致。 VR视 频图 像拍 摄 VR视 频编 辑制 作 VR视 频 源 文 件 VR视频 映射 VR视频 编码 VR视频 传输 终端接 收、渲 染、显 示 VR视 频 源 VR视 频 编 码 VR视 频 传 输 VR视 频 终 端 接收 和 显 示 图3 VR 视频端到端系统框图VR 视频端到端系统流程首先是使用全景摄像机拍摄,随后将多路视频拼接融合为完整的全景视频进行后期编辑制作,经过高效的视频压缩并传输,最后分发到用户端。用户端通过HMD 或VR 眼镜观看VR 视频内容,通过头部姿态调整,观看不同视角的VR 视频内容。VR 视频采集拍摄、拼接编辑制作、编码传输、终端渲染显示等各个环节都会影响用户的观看体验,包括视频质量、流畅性、沉浸感等方面。2.2 VR 视频节目制作与交换用视频参数 用于 VR 视频节目制作与交换中的视频参数值见表 1。表 1 主要参考了 ITU-R 10 BT.2123 标准,映射后图像的有效像素数为30K15K,该值基于人眼的空间视觉特性,使得观看者在观看VR 视频的一部分时感知不到显示屏幕的像素结构。VR 视频要求30K15K 的像素数,其他像素数可在实际系统设计时使用,建议目前最低使用76803840 像素数。表1 VR 视频节目制作与交换用视频参数值序号 参数 数值1 球面360图像到矩形二维图像的映射方法 默认ERP模型,其他模式应该在系统中标识2 映射后图像的有效像素数 (水平垂直) 30720 15360(30K 15K)、7680 3840(8K 4K)3 像素宽高比 1:1(方形)4 帧率(Hz) 120,100,505 扫描模式 逐行光谱 色坐标(CIE,1931)x y6 基色 基色红(R) 单色630 nm 0.708 0.2927 基色绿(G) 单色532 nm 0.170 0.7978 基色蓝(B) 单色467 nm 0.131 0.046 9 基准白 D65,符合ISO 11664-2:2007 0.3127 0.329010 颜色匹配函数 CIE 193111 信号格式 RGB、YCBCR(非恒定亮度)、ICTCP12 RGB、YCBCR和ICTCP(仅限HDR)的导出 SDR:见GY/T 307HDR:见GY/T 31513 量化电平(bit) 10、1214 色度亚取样 见GY/T 31515 数字10比特和12比特整数表示 见 GY/T 315(SDR:窄范围,HDR:窄范围或全范围)2.3 VR 视频拍摄制作与拼接2.3.1 拍摄制作方法 (1)VR 视频拍摄VR 视频拍摄以采集点为观察点拍摄包含场景所有方向的视觉画面,如360 11 360VR 视频、180180VR 视频。拍摄 VR 视频的采集装置通常由多个摄像机呈环形或球面排列组成,VR 视频由每个摄像机采集的视频拼接而成。VR 视频提供第一人称视角的视觉体验,用户固定观看位置,支持头部转动,以头部为中心转动选择视角方向,观看相应方向的画面。目前由多摄像机多镜头组成的 VR 视频采集装置虽没有达到广播级拍摄能力,但已经可以输出高质量的全景视频。配合现有高端手机具备的8K 解码能力,以及HMD 和手机具备的灵活交互能力,VR 视频已较好地应用于直播等场景。(2)计算机图形学制作CG 制作是通过计算机实时计算、渲染出虚拟的场景和实体。CG 制作计算量大,对CPU 和GPU 的性能要求较高,目前主要用于VR 动画等。 (3)实拍抠像结合 CG 制作实拍抠像是在蓝、绿色抠像影棚拍摄主体影像,包括人物、道具等,后期加入CG 制作的背景和环境,或者CG 制作的其它元素,与实拍影像进行高度融合,达到真实的效果。2.3.2 视频拼接算法常用的视频拼接算法可分为基于变换的图像拼接算法和基于拼接线的图像拼接算法。基于变换的图像拼接算法的核心思想是通过对单应性矩阵进行调整,通过网格化的扭曲使重合区域拼接的缝隙尽可能减小,该算法适合小视角变换的情况。代表 性算法有AutoStitch、APAP、ANAP、GSP 等。基于拼接线的图像拼接算法核心思想是通过对图像拼接线部分的重新调整,确保拼接的自然性,该算法适合大视角变换的情况。代表性算法有:Seam-Driven、Parallax-Tolerance 等。(1)AutoStitchAutoStitch(Automatic Panoramic Image Stitching)算法是2007 年 M. Brown和 D. Lowe 提出的,该算法主要是通过单应性变换重建视场,进而完成图像拼接。AutoStitch 算法的特点是:使用概率模型进行特征点筛选、使用光束平差进行位置优化、使用多波段方法进行图像融合。(2)APAP 12 APAP(As-Projective-As-Possible Image Stitching with Moving DLT)算法是2013 年 Zaragoza. J.,Chin. T. J.和Brown. M. S.提出的,是一种基于变换的图像拼接算法。APAP 算法改进了AutoStitch 算法中默认光心不动的缺陷,从而优化了拼接后的重影/鬼影问题。APAP 算法的特点是:引入了网格化,针对图像的不同区域进行加权计算,优化了重合处的效果。(3)ANAPANAP(Adaptive As-Natural-As-Possible Image Stitching)算法是 2015年 Lin. C. C.,Pankanti. S. U.和Ramamurthy. K. N.提出的,该算法主要是通过对单应性矩阵进行线性过渡,考虑旋转角度,尽可能地恢复图像的自然性。 ANAP 算法的特点是:对重叠区域和非重叠区域进行不同处理、采用全局相似变换提高图像自然性、对变换矩阵采用线性过渡。(4)GSPGSP(Natural Image Stitching with the Global Similarity Prior)算法是 2016 年 Chen. Y. S.和 Chuang. Y. Y.提出的,该算法主要是提高全景图自然性的同时,提高拼接的准确性。GSP 算法的特点是:使用 APAP 增加优化的匹配点数,使用不同优化项进行优化,使用直线检测,设置旋转阈值,进行二维和三维优化。(5)Seam-DrivenSeam-Driven(Seam-Driven Image Stitching)算法是2013 年 Gao. J., Li. Y.和Chin. T. J.提出的,该算法主要是找到两幅图片的拼接线,通过拼接线对图像进行融合。Seam-Driven 算法的特点是:使用拼接线对两幅图片进行拼接,求解多个单应性模型并进行评估,选择最优结果。(6)Parallax-ToleranceParallax-Tolerance(Parallax-Tolerant Image Stitching)算法是 2014年 Zhang. F.和Liu. F.提出的,该算法主要是提高大视差场景下的效果。Parallax-Tolerance 算法的特点是使用了视频去抖动方法的优化项。2.4 VR 视频映射及压缩编码 13 VR 视频映射是 VR 视频编码的预处理环节,目前专门针对 VR 视频的编码标准仍在研究中,通常将360的二维球面视频图像映射成为二维平面矩形视频图像,再送入编码器进行编码传输。VR 视频有多种映射表示方式,从压缩编码的角度看,不同的映射方式其压缩效率也不同。2.4.1 映射VR 视频映射是指将球面全景视频表示为适于压缩编码的平面视频,即将球面全景图像转化映射成为二维平面图像。球面全景图像映射成为二维平面图像的映射模型有多种,为了进一步提高编码效率以及达到尽可能好的映射效果,映射模型还在不断地研究和丰富中。MPEG 等 标准中提出了多种映射模型,最常用的是等距圆柱映射和正六面体映射模型。典型映射模型介绍如下:(1)等距圆柱映射(ERP)ERP 映射模型是在 VR 视频中使用最广泛的映射模型,如图 4 所示即是 ERP 映射模式的二维图像平面。经纬图模型只有一个投影面。YouTube、Samsung Gear、优酷、爱奇艺等均采用此种投影格式生产VR 媒体文件。 =90 =-90 =0 =-180 =0 =180 u v m n 图4 ERP 映射模式(2)正六面体映射(CMP)CMP 映射模型有 6个映射面,分别将 360球体视频图像映射到 6个面上,如图5所示。 14 O X Z Y Ps PY uvNX NZu vPZ u v PXu v NY u v uvuv u v图5 CMP 映射模式(3)等角方块映射(EAC)EAC 等角方块映射投影法的目标是不论取样样点在映射面的什么位置,都能保证观看者在各处获得统一的像素观看密度感。EAC 映射模型在6个映射面上,各角度内的像素密度是保持恒定不变的。EAC与CMP映射模型的对比示意图如图6所示。 图6 EAC 与CMP 映射模型对比示意图(4)正八面体映射(OHP)OHP 映射模型有 8个三角形的映射面和 6个顶点,OHP 模型不同于 CMP 模型的特殊之处在于它包含三角形的映射面。三角形映射面需要仔细处理以保证面与面交界处的视觉连续性以及编码效率提升,如图7所示。 15 图7 OHP 映射模式(5)正二十面体映射(ISP)ISP 模型有20 个三角形的映射面和12 个顶点。非紧凑型和紧凑型ISP 的示意图如图8所示。 4 6 8 0 2 1 3 5 7 9 15 1713 11 19 10 12 14 16 18V0 V1 V2 V3 V4 V5 V6 V7 V8 V9V10 V11 XZ Y图8 非紧凑型(左)和紧凑型(右)ISP 映射模式(6)分区域球体映射(SSP)SSP 映射法将球体分为北极区圆、南极区圆和中间赤道部分等三个区域进行映射,如图9所示。 0 1 6 5 2 34 7 V0 V1 V2 V3 V4V5 Y XZ 16 图9 SSP 映射模式(7)截体金字塔(TSP)TSP 映射模型使用顶端截断的金字塔形的立方体几何模型,并将该立方体的六个面整合形成一个紧凑的矩形帧。观看正面是一个整形的正方形,观看侧面和背面则逐渐缩小,如图10 所示。 图10 TSP 映射模式(8)非均匀映射方法除上述多种映射模型外,还可以采用非均匀映射的方法。在主视点区域使用较高的采样密度进行采样,在非主视点区域使用逐渐降低的采样密度进行采样。使用非均匀映射方法的好处是可以大幅降低服务器端的接收码率和解码复杂度,可用于流切换等场景。常用的非均匀映射方式包括非均匀经纬图、非均匀球体和非均匀正六面体等。2.4.2 压缩编码映射后的 VR 视频可采用普通视频的编码技术进行压缩。目前应用较多的视频 17 编码技术是H.264、H.265、AVS2 等,在保证同等画质的前提下,H.265 和AVS2 的压缩效率大约比 H.264 提升 50%左右。下一代编码技术 H.266 与 AVS3 的目标压缩效率比H.265 与AVS2 提升一倍。码率是影响VR 视频在终端接收观看清晰度的重要指标。8K/50P 的视频,采用H.265 或AVS2 编码,码率需80100Mbps。2.5 VR 视频传输2.5.1 传输码率VR 视频业务的发展是画质、交互感不断提升,沉浸感不断增强的过程。传输码率很大程度上决定了 VR 视频业务的质量。现阶段 8K VR 视频需要 80100Mbps 码率,强交互模式下运动感知时延应小于 10ms,弱交互模式下运动感知时延应小于20ms;未来30K VR 视频预计需要8001000Mbps 码率,强交互模式下运动感知时延应小于5ms,弱交互模式下运动感知时延应小于10ms。本白皮书2.7 节详细描述了VR 视频的感知交互模式,VR 视频对传输码率的具体需求见表2。表2 VR 视频对传输码率的需求参数 8K 30KVR 视频分辨率 7680 3840 30720 15360典型单眼分辨率 1920 1920 7680 7680量化电平(bit) 10 12 编码标准 H.265、AVS2 等 H.266、AVS3帧率(Hz) 50 100典型码率(Mbps) 80100 80010002.5.2 传输方案VR 视频传输主要有两种技术路线:全视角传输方案和基于FOV 的传输方案。(1)全视角传输方案全视角传输方案就是将360环绕画面都传输给终端,当用户头部转动需要切换画面时,所有的处理都在终端本地完成。VR 视频在相同单眼可视分辨率情况下,由于帧率、量化电平、360环绕等原因,码率要比普通平面视频大很多,前者一 般是后者的510 倍,这对于传输来说是个极大的挑战,成本也大大增加。 18 (2)FOV 传输方案虽然整个 VR 视频是 360的,但是观看者在观看时,实际只能看到当前视野部分,看到的内容只是占了部分带宽,采用全视角传输方案对带宽资源造成了比较大的浪费。针对这种情况,业界提出了基于FOV 的传输方案。FOV 传输方案主要传输当前视角中的可见画面。一般都是将 360全景视野划分为若干个视角,每个视角生成一个视频文件,只包含视角内高分辨率和周围部分低分辨率视觉信息,终端根据用户当前视角姿态位置,向服务器请求对应的视角文件。当头部转动视角发生变化时,终端向服务器请求新视角对应的视角文件。以基于金字塔投影的 FOV 传输方案为例,如图 11 所示,将用户在虚拟环境中的视觉信息对应的全部球面数据放入金字塔投影。用户视点正前方的平面为 FOV 平面,使用高分辨率编码,其余四个平面为非FOV 平面,分辨率从与FOV 平面相交的边到视角反方向的顶点逐渐降低。传输网络根据终端返回的用户视角信息,向终端提供FOV 范围内的高质量画面和非FOV 范围内的低质量画面。 图11 FOV 视角传输示意图2.6 VR 视频终端渲染显示2.6.1 基本流程VR 视频以流媒体形式经网络传输到达用户终端侧,或者VR 视频以文件形式存储在终端侧,终端对 VR 视频进行解码、渲染和显示。目前,终端有两种形态,一种是HMD 形式,HMD 主要是显示设备,解码渲染等处理能力在PC、机顶盒等终端上,HMD 要与终端连接;另一种是VR 眼镜,可以是具备处理能力的一体式VR 眼镜,也 19 可以是连接手机使用的VR 眼镜。运行在终端上的VR 视频应用软件,实时追踪用户头部的3DoF 姿态,即头部的偏转、俯仰和滚动参数,并根据这些参数实时渲染出用户当前姿态下应看到的每一帧VR 视频画面,追踪、渲染、显示实时完成。2.6.2 渲染在VR 视频应用中,渲染主要是指根据用户头部姿态从全景视频中截取出用户当前应看到的画面,并根据HMD 和VR 眼镜的透镜特性,对画面进行的变形处理。HMD 和VR 眼镜的显示屏幕配合距离人眼只有45cm 距离的凸透镜,达到增大视角范围的效果。VR 视频应用软件预先对图像进行“桶形失真”变形处理,图像 经透镜折射后,“桶形失真”与透镜折射引入的“枕形畸变”相互抵消,最终用户在HMD 和VR 眼镜里可看到正常的画面。“桶形失真”和“枕形畸变”示意图分别如图12、图13 所示。 图12 VR 视频图像“桶形失真”示意图 20 图13 VR 镜头“枕形畸变”示意图2.6.3 显示(1)VR 视频像素密度人肉眼视网膜中心凹(视网膜中心凹是视觉敏锐度最高的区域)的分辨率极限是60 PPD(因人而异,平均为 60 PPD),即如果一幅 6060 像素的图像落入视网膜中心凹11的区域,则人眼无法将其与一幅8080 像素且落入11视网膜中心凹区域的图像区分开。根据人眼60PPD 的分辨能力,可以计算得到,为达到良好视觉效果,VR 视频水平方向360应具有至少21600 像素。目前,VR 视频分辨率通常是 4K,与理想分辨率还有较大差距。未来拍摄 30K 15K 的超高分辨率 VR 视频,达到人眼观看时 60PPD 的视网膜感受,才能带来画面质量质的飞跃。(2)显示屏分辨率HMD 和VR 眼镜的显示屏在显示VR 视频时会分为左右相等的两个显示区域,分别显示左右眼观看的画面。目前,终端显示屏的最高分辨率可达到 4K,按照人眼视域124和60PPD 计算,终端显示屏要达到16K 才能实现理想的显示效果,因此终端屏幕分辨率还需要进一步提升。HMD 和VR 眼镜内置了凸透镜,用于放大显示屏幕的图像,放大倍数一般为57倍。因此,用户通过HMD 和VR 眼镜观看VR 视频时,相当于近距离用一个放大57倍的放大镜观看显示屏,显示屏的物理结构被放大显现出来,这就是业内常说的 纱窗效应,类似于隔着纱窗看窗外的世界,如图14 所示。因此,HMD 和VR 眼镜的显示屏分辨率需要进一步提升,降低纱窗效应。 21 图14 显示屏“纱窗效应”示意图2.7 VR 视频感知交互用户佩戴HDM 或VR 眼镜观看VR 视频时,用户头部姿态的变化,如偏转、俯仰和滚动,可以被HDM 和VR 眼镜中的陀螺仪等装置捕获到,VR 视频系统根据这些捕获的姿态参数,渲染显示用户当前应看到的画面。在VR 视频应用中,用户与VR 视频系统的交互属于弱交互。弱交互是指用户与虚拟环境中的实体不发生实际的互动,用户可以在一定程度上选择视点和位置。在弱交互环境中,用户体验是相对被动的,体验内容也是预先规划好的。VR 视频、VR 旅游等业务属于典型的弱交互范畴。 相对于弱交互,强交互是指用户可通过交互设备与虚拟环境进行互动,通过虚拟环境中的物体对交互行为做出实时响应,使用户能够感受到虚拟环境的变化。在强交互中,虚拟环境中实体的变化与用户输入有关,这与 VR 视频预先规划的内容体验是不一样的。VR 游戏等业务属于强交互范畴。2.8 6DoF2.8.1 拍摄制作方法(1)摄像机拍摄6DoF 中,用户可以在场景中移动。在拍摄 6DoF 的 VR 视频时,必须通过“真实”摄像机在整个视区中记录足够的视图,以允许最终在用户的渲染设备中进行高 质量的视图合成。在实际拍摄中,相机的数量、位置、角度等取决于所需内容的质量,而质量又取决于许多因素,例如:视区的大小、与相关物体的距离、物体的类型、用户的预期运动等。如果有一些物体离用户很近,则相对较小的用户动作将显著改变物体的 22 视线(即大视差),并且会迅速遮挡物体的某些部分,相反,如果物体离得较远则看不见。为了捕获此信息,与拍摄远处的物体相比,将需要更多的摄像机。因此,6DoF 摄像机有多种设置,如图15、图16 所示。相机往往基于固定的角度间隔摆放,角度间隔越小,视角切换的平滑度会越高,但同时相机的数量和系统成本也会随之增加,所以如何利用尽可能少的相机拍摄出平滑度高的6DoF VR 视频是前端采集的关键任务。除此之外,采集系统的同步性和标定精度也是影响拍摄质量的两个主要指标,为了拍摄出接近静止的多角度精彩瞬间,要求相机支持毫秒级别的同步触发拍摄。直播图像要围绕一个焦点旋转,支持焦点的数量和可选范围的大小也是衡量一个拍摄系统的关键所在。 图15 较小的摄影机装备,可在较小的观看区域内捕捉6DoF VR图16 具有许多摄像头的6DoF VR 设置的Intel Studio (2)CG 仿真制作6DoF 内容也可以由 CG 仿真制作,可以从 CG 模型中渲染出所需的“真实”视图,而无需物理摄像机。例如,对于图 17 中的场景,图18 显示了 CG 所生成的虚拟摄像机视图集。从这 15 个视图集合中,实际上可以在视图合成中生成任何其他视图。 23 图17 VR 视频全景视图和相应的深度图图18 15 个虚拟VR 全景摄像机的位置通常,在拍摄 6DoF VR 场景时,有两种方法:由外而内和由内而外。图 19 展 示了由外而内拍摄时的摄像机布置,可捕捉球场上的动作。这种方式也适用于用户与正在进行的事件相对较远的其他场景。 图19 由外而内VR 拍摄体育比赛(点代表摄像机,箭头代表镜头对称轴的方向)对于用户想沉浸在动作中间的用例,例如,身临其境的旅行或一级方程式赛车的驾驶舱,由内而外的拍摄更为合适。图20 所示为这种情况下典型的摄像机布置。 24 图20 由内而外的VR 拍摄的典型摄像机布置2.8.2 编解码典型的编码问题是发送方采用预定义类型的输入,将其编码为码流并发送。接收器了解编码方案,可使用该方案对接收到的码流进行解码,从而重建输入视频。广播应用的视频压缩是有损编码,这意味着无法完全重建输入视频。在某种程度上,6DoF VR 视频也会发生同样的情况,但情况要复杂一些。6DoF 编解码器的系统框图如图21 所示。 多视角纹理+深度摄像机参数 预处
展开阅读全文