资源描述
中国实时音视频行业研究报告 2022.8 iResearch Inc.2 2022.8 iResearch I摘要 来源:艾瑞咨询研究院自主研究绘制。实时音视频标准化工作 的推进将引导行业迈向更高的服务质量,推动 PaaS 层厂商与垂直行业解决方案商之间的良性竞争与协作共赢。同时,实时音视频逐渐向 实时互动领域的延展,元宇宙相关应用的出现将为消费互联网创造更大的想象空间。此外,实时音视频技术有望成为我国泛娱乐出海企业的差异化竞争机会,海外业务版图的扩大 也将驱动行业迎来新一轮的业务增长。趋势 洞察 2021 年中国实时音视频(RTC)PaaS 市场规模为 16 亿元,消费互联网领域为实时音视频行业贡献了核心收入来源。受到社交娱乐头部应用的高度渗透及“双减”政策的持续影响,预计未来三年的复合增长率为 28.4%,2024 年实时音视频(RTC)PaaS 市场规模将达到 30 亿元。SMS市场 规模 网络基础设施升级、音视频传输技术迭代、WebRTC 开源等因素,驱动音视频服务时延逐渐降低,使实时音视频(RTC)技术成为炙手可热的研究方向。实时音视频业务在消费互联网领域蓬勃发展,并逐渐向产业互联网领域加速渗透。经历了行业第一轮的红利爆发期,我国实时音视频行业的场景效能逐渐深化,步入到理性增长阶段。发展 背景 实时音视频赛道玩家的主要竞争策略分为两大类:(1)提供通用的 PaaS 层能力,包括 RTC PaaS厂商、通信云 PaaS 厂商、综合型 IaaS 厂商。其中,RTCPaaS 厂商在技术研发和产品打磨上具备更高的行业专注度,占据市场的主导地位;(2)根植于特定行业场景,主要为垂直行业解决方案商。竞争 格局 实时音视频行业存在较高的资源门槛与技术壁垒。主要包括:软件定义的实时音视频传输网络(Real-time Network,RTN),基于 UDP 的协议层优化,以及弱网传输保障策略。在实际应用中,RTC 与 CDN 技术的融合,衍生出 实时互动直播、超低延时直播 两大技术路径。核心 技术3 2022.8 iResearch I概念定义 来源:ITU-T Rec.G.114(05/2003);艾瑞咨询研究院自主研究并绘制。800ms400ms300ms200ms0ms临近现实的优质实时互动体验 大部分用户满意的实时互动体验 实时 400ms支持强互动 超低延时 400-800ms支持中互动 小部分用户可以感觉到延迟 大部分用户满意的中度互动体验,观 众与主播有较强同步性 用户需承受一定延时,文字/弹幕为 主要互动手段 低延时 3000ms800-3000ms支持轻互动 基本释义:在 远程条件 下,以 接近实时/可忽略延迟 交换信息的通信方式,包括固定通话、移动通话、音频会议、视频会议、网真等形式。实时音视频 LIVEReal Time Communications(RTC)本篇报告研究的实时音视频(RTC)服务特指:通信方式:以音频、视频的形式赋能行业;服务模式:基于云计算技术理念提供,包括实时音视频的底层通用能力,以及垂直行业的解决方案;底层技术:采用软件定义的实时音视频传输网络(Real-timeNetwork,RTN)和基于 UDP 的传输协议;时延区间:本篇报告聚焦于广义的实时音视频,包含时延400 ms内的强互动,以及 800 ms内的超低延时互动。4中国实时音视频行业发展分析 1供给侧:实时音视频行业发展能力洞察 2需求侧:垂直行业实时音频应用实践分析 3中国实时音视频行业典型企业案例 4中国实时音视频行业发展趋势 55 2022.8 iResearch I 2022.8 iResearch I音视频消费习惯的迁移 用户音视频习惯养成,并逐渐向强实时性、强互动性场景延伸 富媒体信息时代,音视频已成为人们获取、发布、交换信息的重要方式。截至 2020 年底,中国网络视听用户占整体网民规模的比例已高达 95.4%。高饱和的渗透率水平,使用户更加关注音视频服务的体验感。得益于底座能力与关键技术的持续突破,音视频服务体系实现了从点播、直播到实时音视频的深化发展。实时性与互动性的长足优化,逐步激活了更多场景下的音视频互动模式,驱动用户的音视频消费习惯向更加还原真实、更加沉浸式的实时音视频服务迁移。同时,伴随疫情的常态化发展,人们远程办理业务的习惯已逐渐养成。实时音视频作为一种通用型能力,撬动了传统行业中众多强实时、强互动场景的数字化升级,也使得实时音视频的消费趋势进一步从消费互联网向产业互联网延伸发展。注释:网络视听用户为综合视频、短视频、网络音频、网络直播用户的并集;网民使用 率指网络视听用户占网民规模的比例。来源:CNNIC;中国 络视听节 服务协会;艾瑞咨询研究院自主研究及绘制。来源:艾瑞咨询研究院自主研究及绘制。音视频消费习惯迁移趋势及典型应用场景 7.327.88.579.019.4488.3%91.3%94.8%95.8%95.4%2018.12 2019.6 2020.3 2020.6 2020.12网络视听用户规模(亿人)网民使用率(%)2018-2020 年 中国网络视听用户规模及使用情况 实时性 互动性 点播 短视频点播 中/长视频点播直播 体育/赛事直播 营销/电商直播 会展/培训直播实时音视频 实时音视频通话 互动直播/PK 连麦 互动大班课 远程办公协作 远程医疗/金融单向分发 多向互动 秒级时延 毫秒级时延 双向互动 非实时6 2022.8 iResearch I 2022.8 iResearch I网络基础设施持续升级 高速泛在的骨干网络,为实时音视频传输提供坚实保障 实时音视频行业的高速发展离不开国家骨干网络的建设。以千兆光网和 5G为代表的“双千兆”网络,近年来取得突破性进展。2021 年,我国光纤接入(FTTH/O)端口已达到对互联网宽带端口的高度覆盖,光纤接入能力已普遍超过百兆,并 向千兆以上速率不断升级;5G网络已覆盖国内所有地级以上城市,5G基站数累计高达 142.5万,用户数占全球的 89%。网络基础设施的广泛渗透,使更多用户可以受益于终端设备与骨干网络之间的快速连接,享受到无感接入、触手可及的高质量网络服务。同时,“双千兆”网络在带宽能力上的显著提升,可大幅降低音视频信息的延迟和缓冲时间,提高端到端毫秒级传输时延的满足率,为实时音视频的数据传输与落地应用提供良好的底层网络支撑。来源:工信部;中国信通院;艾瑞咨询研究院自主研究及绘制。注释:1、该视频通话测试,测试时段涵盖网络忙闲时(7:00-21:00),采集端帧率为 30fps,传输协议是 UDP+FEC,编码方式为 H.264,编码后分辨率为 1280*720,帧率 为 15 fps,编码目标码率为 2Mbps;2、音频卡顿率参照声网“体验等级协议 XLA”,单位时间(1分钟)内 200ms 音频卡顿率大于 3%时,记为不达标。来源:中国信通院;艾瑞咨询研究院自主研究及绘制。41.0 77.1 96.1 142.5 4.7%8.3%10.1%14.3%2020.6 2020.12 2021.6 2021.125G 基站数(万站)5G 基站数在移动基站中占比(%)2017-2021 年中国光纤端口数量及占比情况 2020-2021 年中国 5G 基站数量及占比情况 657497796183617879779599784.4%88.0%91.3%93.0%94.3%2017 2018 2019 2020 2021FTTH/O 端口数量(万个)FTTH/O 端口网宽带占比(%)4G网络 5G 网络 相对增益 无卡顿样本 端到端时延均值 541.81ms 412.60ms23.8%200ms时延满足度 0.54%10.40%1827.6%300ms时延满足度 24.49%66.72%172.5%400ms时延满足度 51.89%78.06%50.4%音频卡顿 达标率 70.37%85.05%20.9%国内某省会城市运营商 4G/5G 下视频通话达标率7 2022.8 iResearch I音视频传输技术更新迭代 技术驱动音视频走向实时,流媒体协议迈入毫秒级传输阶段 流媒体技术可将压缩处理后的音频、影像连续性地上传到网站服务器,使文件无需完全下载到本地即可观看。在编解码方面,H.265、国产 AVS 3等视频解编码技术可以使文件的压缩体积更小、传输速度更快。其中,AVS 3作为全球首个面向 5G产业应用的音视频信源编码标准,已被成功纳入 DVB(数字视频广播组织)标准体系,可以在同等画面质量下比 H.265 节 省 40.09 的码率。在协议方面,基于 TCP 的 RTMP、HLS、DASH 等协议的优化方案仍存在 2-3秒左右的延迟,而基于UDP 的 WebRTC 则突破性地将延迟降低至毫秒级别。与其他协议不同,WebRTC 作为流媒体通信框架,覆盖音视频 采集、编解码、传输和渲染的全部环节,可以为实时音视频提供全流程的理论依据与技术支持。来源:WOWZA 官网;艾瑞咨询研究院自主研究及绘制。45+seconds 18seconds 05seconds 01second 01second Apple-HLSMPEG-DASHHLS TunedDASH TunedRTMPRTSP/RTPRTMP TunedLow-Latency CMAF for DASHLow-Latency HLSSRTWebRTC低时延 优化时延 常见的基于 HTTP协议的时延近乎实时支持单向的高并发直播,线性直播 OTT 内容提供商,新闻和体育赛事直播 UGC 直播 游戏流传输,电子竞技 实时音视频通话、直播 双向网络会议、远程共享 实时设备控制 流媒体传输协议/框架的适用场景及时延对比8 2022.8 iResearch I 2022.8 iResearch I商用方案成为行业主流 WebRTC 奠定技术框架,在基础上演化出第三方服务商 WebRTC 是目前实时音视频领域最流行的开源框架。2010 年 Google 收购 GIPS 引擎后,将其纳入 Chrome 体系且开源后,命名为“WebRTC”。WebRTC 获得各大浏览器厂商的支持并纳入 W3C标准,促进了实时音视频在移动互联网应用中的普及。2021 年 1月,W3C和 IETF 两大标准制定组织宣布 WebRTC 成为官方标准,用户无需下载额外组件或单独的应用程序,便可以支持在网络上的实时音视频通信。尽管 WebRTC 具有免费开源的特性,但其庞大、繁杂,学习门槛高,又缺乏服务器方案的设计和部署,为基于 WebRTC 搭建的商用方案留下了发展空间。第三方的 RTC PaaS 厂商凭借规模效应和技术优势成为开发者的首选,推动实时音视频行业进入发展的快车道。来源:公开信息;艾瑞咨询研究院自主研究及绘制。来源:艾瑞咨询研究院自主研究及绘制。WebRTC 架构图 WebRTCVoice Engine TransportiSAC/iLBC Codec SRTPNetEQ for voice MultiplexingEcho Canceler/Noise ReductionVideo EngineVP8 CodecVideo jitter bufferImage enhancementsP2PSTUN+TURN+ICESession Management/Abstract Signaling(Session)API for web developersAPI for browser makersOverrideable by browser makersWebRTC C+API(PeerConnection)Web API(Edit by W3C WG)AudioCaptureRenderVideo Capture Network I/OYour web app#1Your web app#2Your web app#3WebRTC 开源服务器存在的主要缺陷 网络 优化 3在增加转发节点的情况下,WebRTC 的传输策略无法覆盖完整的端到端传输链路,需对客户端和服务器的上下行链路分别进行优化,以保障弱网传输 终端 接入 1WebRTC 主要面向 Web 应用,在手机端支持上项目复杂度高,需要兼容不同版本、机型,容易出现回声、摄像头打开失败、屏幕录制失败等各种问题 并发 支持 2面对多地多用户接入的场景,单台服务器带宽有限,需要考虑服务器集群之间的级联,以及多地部署的分布式服务器方案,但 WebRTC 开源服务器缺乏整体的服务器设计和部署方案 信令 解耦 4在 WebRTC 开源服务器中,流媒体服务和信令服务耦合在一起,导致服务器资源无法得到合理利用,需将两者进行解耦 为实时音视频技术的商用方案留出发展空间9 2022.8 iResearch I中国实时音视频行业发展阶段 行业潜力逐渐释放,目前处于场景深化阶段的发展中期 WebRTC 开源以及移动互联网的快速发展,使实时音视频技术成为炙手可热的探索方向。顺应用户音视频消费习惯,市场 参与者在消费互联网场景的积极实践,拉动了实时音视频行业的第一轮快速增长。当前,我国实时音视频行业正处于场景 深化阶段的发展中期,市场前期的良好铺垫叠加疫情带来的远程协作需求,使实时音视频技术在产业互联网场景加速渗透。未来,伴随着行业标准的不断完善,实时互动场景的沉浸式提升,以及海外业务版图的持续扩张,我国实时音视频的行业 效能有望迎来新一轮的爆发式增长。来源:中国信通院;艾瑞咨询研究院综合公开资料自主研究及绘制。技术积累(2008-2014)探索扩张(2014-2019)场景深化(2019-2025e)需求爆发(2025e 及以后)中国实时音视频行业发展阶段 2011 年 WebRTC 开源 2020 年 声网上市,同年发布实时互动 行业首个体验质量标准 XLA2021 年 WebRTC 成为 W3C 与 IETF 正式标准 消费习惯:移动互联网高度渗透,音 视频消费习惯跃居主流并趋向超低延时发展;市场格局:实时音视频厂商相继涌现,相关产品陆续发布,实时音视频成为发展趋势;行业覆盖:消费互联网场景广泛渗透,泛娱乐赛道快速拉动行业规模。行业标准建立:推动行业规范发展,更多玩家涌入,规模效应扩大;互动应用深化:实时互动技术矩阵逐渐完善,沉浸式体验升级,向元宇宙进阶;海外业务增长:实时音视频业务借力泛娱乐出海东风,在全球范围内加速渗透。2015 年 亚太区首届 WebRTC 大会召开 市场格局:市场格局趋于稳定,头 部效应明显,实时音视频逐渐成为音视频服务标配;疫情催化:远程交流、协作习惯培养,企业数字化与工业数字化场景的探索与渗透加速;概念升级:5G与 AI、IoT 技术深度融合,驱动实时互动概念深化发展。2019 年 5G 商用 消费习惯:以文字、图片为主,音视频产品以语音通话为主,且 存在较大延迟;技术铺垫:网络建设及大数据、云计算的发展为实时音视频作良好铺垫;WebRTC 开源且诸多技术及应用难题逐步攻克。2017 年 W3C WebRTC 1.0草案定稿 时间 行业效能 2013 年 4G 商用10 2022.8 iResearch I中国实时音视频市场竞争分析 RTC PaaS 厂商凭借产品和技术实力占据市场主导地位 根据厂商聚焦的业务重心和发展实时音视频业务的主要逻辑,可将实时音视频赛道的玩家分为 RTC PaaS 厂商、通信云PaaS 厂商、综合型 IaaS 厂商及垂直行业解决方案商四类。其中前三者以提供通用的 PaaS 层能力为主,第四类根植于特定行业场景,更倾向于输出 PaaS+SaaS 的一站式解决方案。就 PaaS 层而言,RTC PaaS 厂商的业务专注度最高,在技术研发 和产品打磨上能够投入足够的精力,相比其他类型的玩家也具有一定的先发优势,占据了目前市场的主要地位。来源:综合上市公司年报等公开信息;企业及专家访谈;根据艾瑞统计预测模型估算;艾瑞咨询研究院自主研究及绘制。实时音视频行业主要玩家类型及竞争策略分析 实时音视频业务发展逻辑 竞争优势 垂直行业 解决方案商 专注于特定行业领域,以实时音视频完善行业解决方案能力 行业场景理解 场景应用开发 RTC PaaS厂商 以 RTC PaaS 为核心业务,并逐步拓展构建音视频产品矩阵 RTC业务专注度 产品和技术实力 通信云 PaaS厂商 提供包括 IM、RTC、信 令、短信等在内的PaaS 层通信能力 通信云技术协同 通信云服务协同 综合型 IaaS厂商 以 IaaS 服务为核心,在 其上提供包括 RTC 在内的音视频服务 基础设施资源 音视频技术能力 实时音视频业务竞争策略 深挖特定行业场景的 RTC 应用价值,可输出 PaaS+SaaS 的一站式解决方案,赋能行业转型升级 巩固 RTC 技术优势,提供开发者友好的产品和服务,并顺应场景拓展趋势向模块化、组件化发展 充分发挥 IM 与 RTC 在技术和服务上的协同效应,围绕通信云构建场景解决方案,进行差异化竞争 依托音视频产品拉动底层资源消耗,不断精进包括 RTC 在内的音视频技术能力,把握市场机遇 PaaS 层 市场集中度 CR370%11 2022.8 iResearch I中国实时音视频产业图谱 注释:1、仅作部分典型企业展示,图谱中所展示公司 LOGO顺序及大小无实际意义;2、通用能力层按照厂商的整体业务情况进行划分,同一厂商仅出现一次。来源:艾瑞咨询研究院自主研究及绘制。2022 年中国实时音视频行业产业图谱 综合型 IaaS 厂商 通信云 PaaS 厂商 RTC PaaS 厂商 行 业 解 决 方 案 通 用 能 力 社交娱乐 金融 医疗 协同办公 教育 IoTPaaS 解决方案为主 PaaS+SaaS 解决方案 12 2022.8 iResearch I中国实时音视频商业模式 以基础服务+增值服务,搭建完整互动体验,赋能业务增长 注释:通话、直播、转码费用,如果既订阅了视频流又订阅了音频流,则只对视频流计费。来源:腾讯云、声网、即构、阿里云、网易云信产品计费说明;专家访谈;艾瑞咨询研究院综合公开资料自主研究及绘制。增值服务 以 RTC 私有协议推流和拉流的 实时音视频服务采用按时长计费模式。实时音视频厂商在选用不同计费方式之上,还会叠加月度免费时长、套餐包、梯度折扣等组合优惠方式。伴随着应用场景的延伸发展,实时音视频厂商也会采取自主研发或与第三方合作的方式,不断充实自身产品能力矩阵。三网融合类、安全监测类、体验增强类增值服务的拓展,保障了实时音视频服务可用性、可靠性、可玩性,赋予用户更加完整丰富的实时互动体验。三网融合 安全监测 音频服务 视频服务 基础服务 计费逻辑 计时方式 时长 对应档位单价 按订阅视频流计时 实际订阅的分辨率 按订阅人数计时 集合分辨率 时长=用户进入频道/房间的时长,不累加订阅多路视频流的时长 档位单价=用户订阅的所有视频流的分辨率之和 实时音视频商业模式及基础服务计费方式 高级权限控制 质量监测 媒体流加密 内容安全审核在线媒体流输入 美颜/人声效果 互动白板 频道/房间管理旁路推流 CDN 云端混流转码 云端实时录制 IM人数 时长=累加用户订阅的多路视频流时长 档位单价=每路流各自对应的分辨率 体验增强 实时音视频 13 2022.8 iResearch I中国实时音视频厂商盈利能力分析 资源成本及研发投入水平较高,PaaS 厂商毛利率均值约 30%实时音视频行业存在较高的资源门槛与技术门槛:PaaS 厂商不仅需要在底层网络建设上投入一定的资源成本,还需要在策略算法优化和产品矩阵打磨上投入大量的研发成本。正是因为行业门槛的存在,实时音视频行业的市场格局较为集中,头部 PaaS 厂商对于产品价格具备较强的话语权,尚未存在“价格战”。同时,高水平的成本引入,也使实时音视频的产品价格远高于传统音视频产品。整体看来,实时音视频(RTC)PaaS 厂商的毛利率均值约在 30%左右,受资源禀赋及研发能力的不同的影响,不同厂商的成本结构及毛利率水平会存在一定差异。注释:1、资源成本包括带宽成本与基础设施成本两部分。其中,基础设施成本主要包括服务器等硬件采购费用,及 RTN 网络节点的建设费用;2、研发成本为人工费用之外的产品开 发、测试等费用;3、基础层厂商毛利润=实时音视频收入-资源成本-研发成本。来源:综合上市公司年报等公开信息;企业及专家访谈;艾瑞统计预测模型估算;艾瑞咨询研究院自主研究及绘制。100%33%37%30%研发成本毛利润2021 年中国实时音视频(RTC)PaaS 厂商的盈利能力分析 实时音视频(RTC)PaaS 厂商毛利率影响因素1、资源禀赋 自有/自建基础设施 外采/租用基础设施 基础设施可复用 基础设施不可复用(基础设施是否可以同时承担实时音视频服务及 其他云服务,以提高资源利用率)实时音视频(RTC)PaaS 厂商收入资源成本2、研发能力 自研产品/技术 外采产品/技术 有衍生产品对接 无衍生产品对接(是否具备与实时音视频衍生配套的三网融合类、安全类、体验类产品,共同赋能多场景解决方案)14 2022.8 iResearch I2 4 8 15 16 18 22 30 136.6%101.1%89.4%10.3%12.0%23.7%33.4%2017 2018 2019 2020 2021 2022e 2023e 2024e中国实时音视频(RTC)PaaS 市场规模(亿元)中国实时音视频(RTC)PaaS 市场规模增长率 中国实时音视频行业市场规模 预计到 2024 年,实时音视频 PaaS 市场规模将达到 30 亿元 尽管实时音视频服务已经开始呈现出向多行业领域渗透的趋势,但就现阶段而言,以 PaaS 为主要服务模式的消费互联网领域仍然贡献了最核心的收入来源。根据艾瑞咨询测算,2021 年中国实时音视频(RTC)PaaS 市场规模为 16 亿元,同比增长 10.3%。相较过去几年的高速增长,2021 年增速回落的原因主要有两个方面:1)受“双减”政策影响,在线教育领域的收入骤降,2)社交娱乐场景中,实时音视频在头部互联网应用的渗透率已经较高,由高速增长阶段进入平稳增长阶段。疫情于实时音视频无疑起到了重要的市场教育作用,预计未来宏观经济形势转好后,实时音视频将有望在越来越多的产业互联网领域实现落地,同时元宇宙相关应用的出现也将为消费互联网创造更大的想象空间。2017-2024 年中国实时音视频(RTC)PaaS 市场规模及预测 CAGR=77.6%CAGR=28.4%注释:中国实时音视频(RTC)PaaS 市场规模以实时音视频(RTC)PaaS 收入口径核算,统计范围为推流、拉流均使用 RTC 技术且在中国大陆产生的服务收入。来源:综合上市公司年报等公开信息;企业及专家访谈;根据艾瑞统计预测模型估算;艾瑞咨询研究院自主研究及绘制。15中国实时音视频行业发展分析 1供给侧:实时音视频行业发展能力洞察 2需求侧:垂直行业实时音频应用实践分析 3中国实时音视频行业典型企业案例 4中国实时音视频行业发展趋势 516 2022.8 iResearch I实时音视频核心价值及关键技术总览 传输网络保障低延时、高可靠传输,专业组件提升媒体质量 实时音视频相比直播最大的区别在于对端到端时延的降低。在传统直播架构下,时延主要来自于 CDN 分发和下行拉流环 节。而通过搭建面向实时音视频的传输网络,应用低延时传输协议,并辅以弱网传输保障策略,实时音视频实现了低延时、高可靠的音视频传输。在音视频引擎方面,典型的实时音视频场景以沟通交流为核心诉求,对音频的质量关注度较高;而 随着实时音视频向实时互动场景拓展,其对降噪、超分等视频画质修复增强的要求也不断提升。来源:艾瑞咨询研究院自主研究及绘制。实时音视频的核心价值与关键技术 视频引擎 基础设施 专业组件 视频编码器 视频解码器 视频采集 视频渲染 视频降噪 视频增强 超分辨率 HDR音频引擎 音频编码器 回声消除 噪声抑制 空间音频 自动增益控制 音频解码器 音频采集 音频渲染 云基础设施 云原生 边缘计算 传输网络 实时音视频传输网络 网络传输协议 弱网传输保障策略 构建软件定义的去 中心化传输网络,可实现智能路由、智能调度 对 UDP 协议在协议 层与算法层进行优 化,提高传输的可 靠性与逻辑性 主要通过丢包修复、抖动对抗、码率自 适应保障弱网环境 下的传输 直播时延的来源 链路时延抖动、协议栈的优化情况以及CDN资源的覆盖情况,是造成 CDN分 发和下行拉流的时延的主要原因,也是降低音视频传输端到端时延的关键 采集+编码 60ms上行推流 1050msCDN分发 1010000ms下行拉流 101000ms解码+渲染 40ms时延优化17 2022.8 iResearch I实时音视频传输网络 软件定义的去中心化网络,依托智能路由算法选择最佳路径 实时音视频传输网络(Real-timeNetwork,RTN)是专为实时通信设计的稳定、高质量的传输网络。通常而言,实时音视频传输网络架构在公共互联网之上,采用软件定义网络的方式进行网络虚拟化,专注于 通信路由的计算和链路异常的故障恢复。其控制面主要负责网络质量探测、路径规划和规则配置管理,数据面负责数据传输和转发,承担边缘和中转的角色。基于去中心化的架构设计,实时音视频传输网络允许终端用户从边缘节点就近接入,并利用智能路由算法实时计算最优的路径传输,有效解决路由链路和带宽成本的问题。来源:艾瑞咨询研究院自主研究及绘制。实时音视频传输网络的架构及特征 边缘节点 边缘节点 边缘节点 边缘节点 边缘节点 边缘节点 控制面 控制面 控制面 边缘 数据面 中转 数据面 边缘 数据面 媒体边 缘服务 媒体边 缘服务 负责网络质量探测、路径规划、规则配置管理 负责数据传输和转发 推流 拉流 实时音视频传输网络 RTN 实时音视频 传输网络 RTN软件定义 架构在公共互联网之上,基于软件定义网络 构建的、支持跨运营商、跨区域的实时音视 频传输网络,采取多路冗余的方式,降低对 单一物理资源的依赖 去中心化 依靠分布广泛的边缘节点,采取就近接入的 策略,支持不同区域内任意两个流媒体服务 器间的 级联、网内传输 智能调度 综合考虑容量、带宽成本和质量之间的平衡,基于智能路由算法进行最优的路径规划,自 动切换故障线路,保障音视频数据的稳定、高质量传输18 2022.8 iResearch I网络传输协议的选择 注释:RTP(实时传输协议/Real-time Transport Protocol)是承载媒体的协议;RTCP(RTP 控制协议/RTP Control Protocol)是用于传达有关呼叫的元数据的协议。来源:WebRTC 音视频实时互动技术;艾瑞咨询研究院综合公开资料自主研究及绘制。传输层协议的选择:TCP 是牺牲传输实时性来换取数据完整性的可靠传输协议。弱网环境下,其在数据传输前的“三次握手”连接会带来较大延时。而 UDP 作为不可靠的传输协议,其最大的优点为高实时性,但不保证数据的到达和排序。实时音视频产品往往采用 UDP协议,并在此之上进行协议层与算法层的优化,来提高传输的可靠性与逻辑性。UDP协议的优化:UDP 协议往往和 RTP/RTCP 协议一起在实际应用中出现。RTP 负责数据传输,其协议头中的序列号、端口类型、时间戳等字段,可为数据包的 分组、组装、排序提供逻辑依据;RTCP 作为 RTP 的控制协议,负责对 RTP 的 传输质量进行统计反馈,并为弱网对抗策略提供控制参数。基于 UDP 协议的可靠性优化,为弱网对抗策略提供依据 UDP 协议与 RTP/RTCP 协议的传输路径 RTCP 协议支持多种报文消息,其 中,网络质量评估与控制的大量参数都是从 SR 与 RR 报文中获得:发送信息报文 SR(Sender Report packet)向接收端报告一段时间内,发 送的数据包情况。接收信息报文 RR(Receiver Report packet)向发送端反馈接收情况,包括丢包率、延时区间等信息。IP 数据包 IP 数据包 UDP 数据包 UDP 数据包 发送端 接收端 RTCP 反馈 RTP 封装 RTP 数据包 SR 数据包 RR 数据包 RTCP 反馈 RTP 封装 RTP 数据包 SR 数据包 RR 数据包 通信网络19 2022.8 iResearch I弱网传输保障策略(1/3)丢包恢复:联动接收端与发送端的“重传+编码”配合策略来源:网易云信音视频技术专栏 网易云信流媒体服务端架构设计与实现;网络 QoS 的平衡之道 音视频弱网对抗策略介绍;融云技术文章 RTC 系统音视频传输弱网对抗 技术;CSDN;艾瑞咨询研究院自主研究及绘制。基于发送端-前向纠错 FEC(Forward Error Correction)基于接收端-自动重传请求 ARQ(Automatic Repeat-reQuest)技术原理:FEC技术的核心为:以带宽换延时。发送端根据网络状况提前封装冗余包。接收端发生少量丢包时,可以直接根据冗余包恢复数据。FEC技术的关键在于如何合理地设置冗余策略,达到抗丢包能力、视频码率、恢复延时三者的有效平衡。发送端 5 4 3 2 1X 5 4 3 2 1X 5 4 3 2 15 4 3 2 1RTN 网络 FEC编码 FEC修复 接收端 弱网环境下,实时音视频在网络传输侧的丢包恢复技术主要包括:自动重传请求(ARQ-NACK)、冗余编码(FEC/RED)、I帧申请(PLI/FIR)等。实际应用中通常采用 ARQ-NACK 技术先行,FEC 技术兜底的配合策略。并根据NACK 成功率、NACK 响应时长和 FEC 恢复率,对整体的抗丢包策略进行实时、动态的调整。具体的技术原理及应用的优缺点如下:优点:相比 ACK机制,对带宽的利用率高;不需要带宽预测,低延迟场景下的重传恢复效果好。技术原理:不同于 TCP 协议下 ACK的“通知到达”机制,实时音视频传输采用 RTP/UDP 协议下 NACK的“通 知未达”机制。在接收端检查数据包序列号的连续性,来判断是否丢包,每隔 1个 RTT(往返延时)对同 1个包向发送端发起重传请求。优点:无需重传数据,丢包恢复时延低;适用于丢包率比较稳定的情况。实时音视频:丢包恢复的主要优化策略 缺点:引入额外的丢包恢复抖动,拉大延时。高延迟场景下,网络 RTT 越大,重传恢复效 果越差。缺点:需要进行带宽预测,效果依赖于对丢 包预测的准确性;占用额外带宽,带宽受限场景会挤压 视频原始码率,影响画质。5 4 3 2 1 5 4 3 2 1网络 RTP/UDP:NACKTCP:ACK发送端 接收端 未收到 3 重传 3已收到 重传 3 1 2 4 5FEC传输原理简要示意图20 2022.8 iResearch I弱网传输保障策略(2/3)抖动对抗:根据网络环境自适应缓存,平滑终端流畅体验 虽然丢包恢复算法可以增强弱网环境中数据传输的容错性,但难以解决因网络抖动、解码前各环节抖动带来的乱序、延迟到达等问题,此时往往需要 JitterBuffer(抖动缓冲区)来做媒体包的缓存。WebRTC 的视频引擎、声音引擎中均包含自适应缓冲模块,一方面可以把收到的乱序媒体包进行排序、组帧;另一方面可以 根据网络环境动态调整端到端的缓存时间,通过让步适当的延迟来换取音视频通话的流畅性。打造优秀 JitterBuffer 的难点在于如何快速、准确地计算网络环境的非稳态变化(包括网络带来的抖动和抗丢包等算法引入的额外延迟),并在延迟和卡顿之间取得较好的平衡。来源:WebRTC 音视频实时互动技术;CSDN 文章 WebRTC 视频 JitterBuffer 详解、WebRTC Qos 优化杂记;网易云信 浅析 JitterBuffer;百度智能云 实时音视 频抗弱网技术揭秘;声网 详解低延时高音质 系列技术文章;艾瑞咨询研究院自主研究及绘制。压缩数据 55 565758M61 组成一帧 包序列 包排序:通过 RTP 协议头中的 Sequence Number等字段,将 RTP 数据包进行排序检查,并将其组成一个完整帧。组包模块(Packet Buffer)帧排序:通过 FrameReference Finder 填充完整帧的参考帧,并使其均进入 GOP 排序。GOP排序:缓存并向解码器输出可解码的连续GOP。组帧模块(Frame ReferenceFinder&Frame Buffer)Packet/JitterBuffer解 码 器 解码缓冲区 NetEQ算法缓冲区 Speech BufferDSP处 理 加 速 慢 速 正 常 融 合 丢 包 隐 藏 共享内存 解码 渲染 信号处理单元(DSP)实时音视频:WebRTC 框架中的视频、音频动态缓冲策略 I B1 B2 B3 B4 P1 I GOP1 GOP2压缩数据 视频抗抖动-JitterBuffer微控制单元(MCU)播放 音频抗抖动-NetEQ 将 MCU 中缓存、排序后的音频数据交给 DSP 中的解码器进行处理。丢包隐藏技术可以产生与 丢失包相似的替代语音来平衡 QoS。21 2022.8 iResearch I弱网传输保障策略(3/3)码率自适应:根据接收端带宽情况,针对性推送适合码流 丢包恢复、抖动对抗策略可以在有限的带宽下,提供更好的音视频质量,但难以解决多人互动场景下,单一码流无法适应多接收端网络带宽状况不一的问题。传统多人互动方案中,网络带宽较差的用户往往会影响所有参与者的体验。而动态码率策略虽然对发送端的带宽要求较高,但可以根据接收端的带宽状况,调整传输的数据量,向接收端推送合适的视频流。对网络质量好的用户,传输高清晰度的流;反之,则传输低清晰度的流。视频流的码率自适应技术主要包括:多码流切换(Simulcast)和可伸缩编码(SVC)。来源:融云技术文章 AI 算法在视频可分级编码中的应用;CSDN 技术文章 Simulcast 与 SVC 简介;艾瑞咨询研究院综合公开资料自主研究及绘制。可伸缩编码 SVC(Scalable Video Coding)实时音视频:码率自适应的主要优化策略 核心层(0)中间层(1)扩展层(2)多码流切换(Simulcast)1080p720p360p发送端 接收端 1接收端 2360p1080pRTN服务端(带宽较差)(带宽良好)发送端 接收端 1接收端 2RTN服务端 02 1 02 1 0(带宽良好)(带宽较差)缺点:视频流分级编码,接收端解码复杂度增加;作为 H.264 的拓展,2007 年成为正式标准,兼容性有待提升。技术原理:将视频流按时间、空间、质量分成多层编码,装载为一路流发送到服务端,服务端根据接收端用户带宽状况选择不同层下发。优点:相比 Simulcast,编码效率和复杂网络适应性均大幅提升。(逐层依赖关系)缺点:上行产生多路视频流,容易造成带宽资源的浪费;接收端可选择视频流种类有限,复杂网络条件下的适用性差。技术原理:将视频流编码出不同分辨率的多路码流,同时发送给服务端。服 务端根据接收端用户带宽状况选择最合适码流。优点:每一路流可以单独解码,且解码复杂度没有增加;相比 SVC,实际应用更易实现。22 2022.8 iResearch I视频引擎 编解码技术升级迭代,AI 技术助力视频画质修复与增强 未经压缩的数字视频的数据量巨大,通常需要对原始视频压缩后再进行存储和传输,这便是视频编码的主要工作。编码效率是影响视频编码器选择的关键因素,以 H.265 为例,与上一代 H.264 相比,可以在维持画质基本不变的前提下将传输带宽减少到原来的一半。虽然现阶段 H.264 仍是最广泛使用的视频编码器,但其使用率已经开始出现下滑,H.265、VP 9等 有望将成为下一阶段的主流。除此之外,利用人工智能技术进行降噪、去压缩、清晰度和色彩增强等一系列画质优化工作,提升人眼对视频的主观体验,是视频前、后处理过程中重点关注的方向。来源:视频编码器调研数据来自 2021 Bitmovin
展开阅读全文