20221214_艾瑞咨询_2022年中国智能语音转写行业研究报告(43页).pdf

返回 相关 举报
20221214_艾瑞咨询_2022年中国智能语音转写行业研究报告(43页).pdf_第1页
第1页 / 共43页
20221214_艾瑞咨询_2022年中国智能语音转写行业研究报告(43页).pdf_第2页
第2页 / 共43页
20221214_艾瑞咨询_2022年中国智能语音转写行业研究报告(43页).pdf_第3页
第3页 / 共43页
20221214_艾瑞咨询_2022年中国智能语音转写行业研究报告(43页).pdf_第4页
第4页 / 共43页
20221214_艾瑞咨询_2022年中国智能语音转写行业研究报告(43页).pdf_第5页
第5页 / 共43页
亲,该文档总共43页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
释放数字生产力,留存探索语音内容 2022.12 iResearch Inc.智能语音转写行业研究报告2研究背景:研究对象:在工具不发达的年代,会议记录主要依靠人力完成,以多人合作的分工形式提升记录效率。后随着记录工具不断升级和专业培训,人工转写的效率也在不断提升,专业速录师可依靠速录机完成会议等场景的转写需求,但成本较高。后随着互联网及人工智能技术的不断发展,智能语音转写产品应运而生。尤其在 2011 年,大量研究人员转向深度学习在 智能语音领域的研究,利用大数据、机器学习和大算力“三驾马车”,让语音识别的识别准确度再一次得到明显提升,智能语音技术迎来落地应用的发展期。”工欲善其事,必先利其器“,智能化的语音转写服务以价优、质高、便捷的优势满足了转写记录这一交流场景的需求痛点,并在远程办公、新媒体、国际化交流的需求背景下,未来保持强劲市场增长力。作为语音识别技术的产品应用,智能语音转写产品是可以支持长音频识别的语音转文字服务,分为实时语音转写与非实时语音转写,可为信息处理和数据挖掘提供基础。研究方法:本报告通过业内资深的专家访谈、桌面研究、产品对比研究、行业数据统计与行业规模推算输出相应研究成果。艾瑞咨询 产业数字化研究部 人工智能研究组 报告撰写 前言 对此,艾瑞发布 中国智能语音转写行业研究报告,从语音识别-智能转写产品角度 出发,确立智能语音转写服务的范围定义,描绘智能语音转写服务的产业图谱与需求市场,梳理智能语音转写服务在 SaaS 软件服务及本地解决方案的不同产品形式、商业模式及厂 商格局,并为中国智能语音转写行业的趋势发展提供分析判断,希望通过本报告,为读者 呈现中国智能语音转写的产业发展背景、行业厂商动态、产品发展机遇的多维视角,欢迎 各界探讨指正。32022.12 iResearch I摘要 来源:艾瑞咨询研究院自主研究绘制。从技术趋势 来看,语音识别技术的精度和速度仍取决于实际应用环境,面对“混合语种”“嘈杂环境”下的“多人”“交互”“重叠”等多重因素交织的复杂语音场景,语音转写技术应用仍有待突破;从场景价值来看,如今智能转写应用领域大多仅服务于从语音到文字转写内容的实现,未来转写应用可结合自然语言理解、机器学习、知识图谱等 AI 技术,拓展转写产品的场景边界,深入挖掘转写内容价值,以更高阶、智能的辅助替代角色,为客户提供问题预警、策略总结、决策分析等功能服务;从厂商策略来看,各家将以构建自身产品生态,加强外部场景合作为策略核心,基于自身企业特点选择差异化侧重,共同推进转写技术的应用渗透与市场发展。近年来,智能语音技术与互联网、企业服务、消费硬件、传媒、医疗健康等各行业的深度融合带来了新的用户需求增长和商业模式创新,创造产业经济价值、繁荣产业生态,算法模型、优质数据集与多样化应用场景助力产业规模走高。部分智能语音产品如语音助手、语音转写、智能客服等取得产品价值突破或商业上的显著成就,语音识别相关产品多已进入稳步上升期。但在细分产品的交互体验、使用效果、场景优化等方面仍面临长期求索。人们面对“AI”时希望得到的自然、类人、甚至高信息密度的交互体验,仍然是一个宏伟的开放性课题。在人力成本、协同办公、传媒音视频、会展交流、跨国 沟通 等多重因素驱动下,中国智能转写市场不断注入需求活力,2021 年中国智能语音转写市场规模已约为 10 亿元。未来,随着智能转写的技术突破、功能丰富及场景泛化,智能转写市场规模将加速上扬,预计 2026 年市场规模将达到 38 亿。从产品形态来看,智能转写产品主要包括 SaaS 类产品与本地化部署解决方案两大类。其中,SaaS 市场头部聚集效应显著,讯飞听见与搜狗听写位列第一梯队,讯飞听见在转写准确率尤其是小语种和方言等、产品丰富度、品牌影响力和发展潜力维度拔得头筹。未来,SaaS 形式 API 调用与垂类解决方案将形成合力,构成智能语音转写产业既快且稳的增长飞轮,高生态活性 加硬解决方案实力的企业将更能突出重围,抢占更多增量市场。语音识别产品早期主要是语音听写,即用户说一句、机器识别一句;后来发展成语音转写,更聚焦于人人交流场景。智能语音转写是可以支持长音视频的语音转文字服务,附加产品服务、多语种翻译、内容分析等智能化功能,满足用户在会议、庭审、采访、直播、视频制作、客服质检等场景中的实时与非实时语音转写需求。随 着语音识别准确性及效率的提升、多语种与方言转写服务丰富,以及上下文纠正、标点过滤、自定义热词配置、声纹角色分离、语音内容分析提取等功能的逐步优化,智能语音转写服务的商业化落地与多场景复用持续推进,成为语音识别产品的“排头兵”。智能语音产业发展智能语音转写产品智能语音转写市场智能语音转写趋势洞察4智能语音转写行业 发展背景篇 1智能语音转写行业 市场分析篇 2智能语音转写行业典型企业案例 3智能语音转写行业 发展趋势篇 452022.12 iResearch I智能语音产业的宏观背景 数字信息输入输出的重要载体,人工智能产业落地“先锋军”智能语音技术指通过声音信号的前端处理、语音识别(ASR)、自然语言处理(NLP)、语音合成(TTS)等技术形成完整的人机语音交互流程,是实现人与机器交流的纽带,也是数字信息输入与输出的重要载体。近年来,智能语音技术与互联网、企业服务、消费硬件、传媒、医疗健康等各行业的深度融合带来了新的用户需求增长和商业模式创新,创造产业经济价值、繁荣产业生态。智能语音产业的迅速发展促进了我国数字经济发展、提高了社会治理的智能化水平、推动了我国人工智能技术创新的战略突破。作为人工智能产业落地的“先锋军”,智能语音产业得到了国家和地方政策的有力支持,且随着参与者不断进入智能语音赛道,“百舸争流,千帆竞发”,产业技术水平和产品竞争力不断提高。来源:艾瑞研究院根据公开资料自主研究绘制。发布日期 相关机构 重点内容2022-05 国务院办公厅 强化科技赋能,进一步加强 12345 平台和网上 12345 能力建设,开发 智能推荐、语音自动转写、自助派单功能 2021-11 工信部 工业和信息化部批复组建国家智能语音创新中心,将围绕 多语种语音识别、语音合成、语义理解和专用人工智能语音芯片等 研发方向,构建集共性技术研发、测试验证、中 试孵化和成果转移转化于一体的创新平台 2021-01 国务院办公厅 提出加强 自助下单、智能文本客服、智能语音等 智能化应用,方便企业和群众反映诉求建议 2020-10 工信部 鼓励 智能家居产品普及语音控制功能,推动基于智能语音识别技术的智能音箱、智能可穿戴设备及其他智能家电产品开发,老年人可通过语音方式实现便捷化操作 2019-02 最高人民法院 全面提升语音识别技术在 庭审语音同步转录 中的应用效能,建成全国法院智能语音云平台,实现全国法院语音识别的模型共享和统一管理 2018-04 国务院办公厅 开展智能医学影像识别、病理分型和多学科会诊以及多种 医疗健康场景下的智能语音技术应用,提高医疗服务效率 2017-07科技部 公布了首批国家新一代人工智能开放创新平台,包括自动驾驶、城市大脑医疗影像和 智能语音 2017-07 司法部 大力发展电子公证、法律服务智能保障等业务模式,推进 人工智能语音热线和社交网络法律服务机器人 技术研发,促进公共法律服务提档 中国智能语音产业典型应用场景及政策汇总(部分)传媒制作 智能机器人 智能客服 智能家居 协同办公62022.12 iResearch I智能语音产业的市场规模 2022 年智能语音市场规模达 215 亿元,产业规模持续走高 近年来,我国人工智能产业维持稳步增长态势;其中,智能语音产业基于语音识别等算法模型突破、优质数据集积累和丰富的下游应用场景创新,已进入规模化深耕阶段。我国头部智能语音企业、大型互联网企业等纷纷以“开放平台+垂直赛道”的发展模式,一方面通过语音开放平台为各行业开发者提供智能语音技术支撑,协作场景与产品创新,助力产业规模增长;另一方面凭借各自在消费硬件、协同办公、视频直播等领域的行业理解与用户生态,持续拓展智能车载、娱乐传媒、协同办公、智慧医疗、在线教育、智能家居等垂直行业赛道,以语音为信息的出入口,构建泛语音产业生态集群。2022年中国智能语音产业规模可达 215 亿元且维持较高增速,预计到 2026 年产业规模可达 469 亿元。注释:智能语音典型产品包括对话机器人、智能硬件中的 AI 语音助手以及教育、医疗、司法、公安、互联网等垂直行业中的智能语音产品及应用。来源:艾瑞咨询研究院根据专家访谈,结合艾瑞统计模型自主研究绘制。2019-2026 年中国智能语音产业规模 7710915921527233139646941.6%45.9%35.2%26.5%21.7%19.6%18.4%-1 5 0.0%-1 0 0.0%-5 0.0%0.0%50.0%10 0.0%0 10 020 030 040 050 060 070 080 02019 2020 2021 2022e 2023e 2024e 2025e 2026e智能语音产业规模(亿元)智能语音产业增速(%)CAGR=16.9%72022.12 iResearch I智能语音产业的产品成熟度 语音识别相关产品多已进入稳步上升期 人类对机器语音识别的探索始于 20 世纪 50 年代,迄今已逾 70年。2016 年,在深度神经网络的帮助下,机器语音识别准确率第一次达到人类水平,意味着智能语音技术落地期到来。后随着近场语音识别准确率提升、远场语音识别和唤醒发展、全双工语音交互出现、基于 NLP 的对话和问答能力逐渐成熟、知识图谱技术助力对话引擎以及针对实际应用中的算法优化,智能语音技术的落地可用性不断突破。但其背后涉及的声学研究、模式识别研究、通用 NLP 研究及垂直场景的深度语义理解等还未成熟到拼成一个没有明显短板的“木桶”。因此尽管部分智能语音产品如语音助手、语音转写、智能客服等已取得了产品价值突破或商业上的显著成就,但在细分产品的交互体验、使用效果、场景优化等方面仍面临长期求索。人们面对“AI”时希望得到的自然、类人、甚至高信息密度的交互体验,仍然是一个宏伟的开放性课题。来源:艾瑞咨询研究院自主研究及绘制。2022 年中国智能语音产品成熟度曲线分布 阶段 表示智能语音相关技术的一阶产品,可衍生出各细分领域的产品应用。如智能客服+金融、基于语音助手的智能音箱等 表示智能语音技术二阶产品,如基于语音识别技术的智能语音转写产品、基于语音合成技术的语音播报等 智能客服 产 品 成 熟 度 萌芽探索期 落地实践期 飞跃发展期 稳步上升期 生产成熟期 语音识别 智能语音开发平台 语音芯片 声纹识别 语音输入法 语音转写 智能车载 语音助手 生成式 AI(音频)语音审核 智能消费硬件 语音合成 语音播报 自然语言处理 技术落地初期阶段,产品成熟度较低 产品普及率提升,成熟度曲线处于缓慢爬坡期 产品规模化应用,成熟度快速增长 成熟度趋于稳定,产品及服务差异化竞争阶段 成熟度稳定阶段。但 技术若出现跨越性突破,产品或回到飞跃发展阶段82022.12 iResearch I智能语音转写的定义与分类 语音识别产品的重要输出形态,分为实时与非实时语音转写 语音识别产品早期主要是语音听写,即用户说一句、机器识别一句;后来发展成语音转写,更聚焦于人人交流场景。智能 语音转写是可以支持长音视频的语音转文字服务,分为实时语音转写与非实时语音转写,可为信息处理和数据挖掘提供基 础。适用于线上线下会议记录转写、影视字幕制作、媒体新闻工作、会议翻译等多个应用情境。作为数字化劳动力,解决 刚需问题,有效提高办公效率。随着语音识别准确性及效率的提升、多语种与方言转写服务丰富,以及上下文纠正、标点 过滤、语气词过滤、自定义热词配置、声纹角色分离、语音内容分析提取等智能化服务功能的逐步优化,智能语音转写服 务的商业化落地与多场景复用持续推进,成为语音识别产品的“排头兵”。来源:艾瑞咨询研究院自主研究及绘制。01 02实时语音转写 智能语音转写产品定义与分类 实时语音转写(流式上传-同步获取):实 时语音转写可将不限时长的音频流实时识别为文字,并返回带有时间戳的文字流;可用于直播实时字幕、实时会议记录;也可配合机器翻译,实现同传功能。非实时语音转写 非实时语音转写(已录制音频文件上传-异步获取):非实时语音转写 将长段音频数据转换成文本数据。可用于影视字幕制作、会议访谈记录转写、智能客服录音质检等场景。语音 识别 作为 智能交互中的一环,进行语音识别,让机器“理解”人类说的话语,而非以识别为最终产品目的 语音转写:支持长音视频的语音转文字服务,可为信息处理和数据挖掘提供基础。92022.12 iResearch I语音识别系统技术架构 实现对声音波形序列的识别,得到相应的单词或者字符序列 智能语音转写产品的核心是语音识别系统,需实现对给定的声音波形序列的识别,得到相应的单词或者字符序列。语音识别系统由信号处理和特征提取、声学模型(Acoustic Model,AM)、语言模型(Language Model,LM)和解码搜索 共四部分组成。识别过程首先对音频流进行处理,通过消除噪声和信道失真对语音进行增强,然后分割声音片段并转换成一系列数值,通过声学模型识别数值,最终利用语言模型解码搜索匹配得到最优的词序列作为识别结果输出。声学模型和语言模型的获得需对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘训练。解码过程中还存在一个“自适应”反馈模块,可对用户的语音进行自学习,从而对模型进行校正,进一步提高识别准确率。来源:艾瑞根据 CSDN 等公开资料整理研究绘制。信号处理和特征提取 解码搜索 声学模型 语言模型 智能语音转写产品核心 语音识别系统的技术结构 音频信号 声音特征 语言模型得分 识别结果 信号处理和特征提取:以 音频模拟信号输入,将其转为数字信号,提取声音特征,供声学模型提取合适有代表性的特征向量。Step1Step2声学模型 将声学和发音学(Phonetics)的知 识进行整合,以特征提取部分生成的特征为输 入,并为可变长特征序列生成声学模型分数。语言模型 通过训练语料/数据(通常是文本形式)学习词之间的相互关系,来估计假设词序列的可能 性,找出该声音特征最有可能对应的文字序列。Step3解码搜索:对给定的特 征向量序列和若干假设 词序列计算声学模型分 数和语言模型分数,将 总体输出分数最高的词 序列作为识别结果。声学 模型 语言 模型 打开空调 0.95大凯空调 0.70大楷空条 0.35dakai kong tiao0.85 0.95 0.70 0.85dakai zhao ming0.85 0.95 0.20 0.15声学模型得分102022.12 iResearch I语音识别技术发展历程 声学模型突破引领技术商业落地进程 从最初的基于孤立词的小词汇量语音识别系统,到目前的基于大词汇量的连续语音识别系统,语音识别技术取得了显著的进展。语言模型主要基于传统的 N-Gram 方法(一种基于统计语言模型的算法)进行统计匹配。虽然目前也有深度神经网络的语言模型的研究,但在实用中主要还是更多用于后处理纠错。或加入 NLP Embedding 模型,联系上下文,以提升语音识别结果准确率。而纵观其技术落地的突破路径,对于声音模型的研究优化是实现产品性能提升的主旋律。声学模型是语音识别系统的重要组成部分,占据着大部分的计算资源并决定着语音识别系统的性能。2009 年随着深度学习技术发展,基于 DNN-HMM的语音声学模型成为主流,语音识别因此取得了突破性进展;此后,不同的网络结构组合以及优化策略极大提升了声学模型的性能,如端到端的识别模型、粗粒度的建模单元、更复杂的深度神经网络等。来源:艾瑞研究院根据公开资料自主研究绘制。语音识别技术中声学模型的突破路径 u 深度神经网络方法主导 2006 至今 u 概率统计方法主导 1970s2006u 模板匹配方法主导 1970s模板匹配识别:提取语音信号的特征构建参数模板,将测试语音与参考模板参数进行比较匹配,取距离最近的样本所对应的词标注为该语音信号的发音。该方法可有效解决孤立词识别,但 难以实现大词汇量、非特定人连续语音识别。概率统计识别:隐马尔可夫模型(HMM)和高斯混合模型(DMM)。GMM-HMM框架中,GMM用于对语音声学特征的分布进行建模,HMM则用于对语音信号的时序性进行建模。自上世纪 90 年代语音识别声学模型的区分性训练准则和模型自适应方法被提出以后,语音识别进入缓慢发展期。2006 年:深度学习进入发展元年。2019 年,Hinton 将 DNN 应用于语音的声学建模;2011 年底,微软研究院将 DNN 技术应用在了大词汇量连续语音识别任务上,大大降低了语音识别错误率。从此语音识别进入DNN-HMM时代。此外 LSTM(递归神经网络模型)具有长短时记忆能力,整体性能比 DNN 有相对 20%左右稳定提升 2015-2017:基于端到端识别模型 可去除 HMM,直接从声学特征输入就可以得到识别的词序列,进一步提升语音识别准确率及解码速度。2017 年以后:随着各种深度神经网络以及端到端技术的兴起,业界厂商纷纷发布及持续优化各自声学模型结构。语音识别准确率持续提升。以科大讯飞为例,2010 年中英文识别准确率只有 60%左右,而在 2021年 8月,科大讯飞厂商的中英文转写准确率已突破 98.33%。112022.12 iResearch I智能语音转写的需求场景 以转写功能为基础,满足细分场景需求,构成丰富产品形态 自从以远场语音技术落地为代表的智能音箱产品规模化应用、深度神经网络下的声学模型研发创新进入平稳发展期后,语 音识别赛道的产业竞争已经从标准环境下的算法研发比拼,过渡到了在真实细分需求场景下如何满足用户体验的竞争。智 能语音转写产品也遵循这一赛道特征,以语音转文字功能为基础,附加产品服务、多语种翻译、内容分析等智能化服务功 能,满足用户在会议、庭审、采访、直播、视频制作、客服质检等场景中的实时与非实时语音转写需求。智能语音转写产 品具备丰富的产品形态,可应用于娱乐传媒、在线教育、会议会展、同传等多行业领域,帮助提升企事业单位办公人群、学生、自媒体从业人员、翻译专业人士等各类群体的工作效率。来源:艾瑞研究院根据公开资料自主研究绘制。智能语音转写产品的需求场景 转写 功能 语种 翻译 产品 服务 内容 分析 实时 场景 非实时 场景 提供会议记录及会后整理,可 附加会议软件等产品功能 提供字幕转写服务,可 附加音视频编辑相关产品功能 提供语音转写服务,在多语种环境下,附加实时/非实时翻译功能 提供人机耦合服务,译员配合智能转写内容优化最终产出 提供语音转写服务,对转写文 本进行 内容追踪、实时提醒、处理分析、风控质检等等操作 实时会议记录 实时直播字幕 实时庭审记录 实时客服记录 会议纪要总结 音视频字幕编辑 庭审数据录入 黄暴等语音质检 对响应时间要求更高,需进行模型蒸馏与模型优化 对响应时间要求相对较低,可通过闲时转写实现需求错峰 实时采访转写 实时会议同传 课堂录音分析 电话销售/客服122022.12 iResearch I智能语音转写的价值意义 存量助力人工转写市场,增量释放更多潜在场景需求 传统人力转写市场依赖经验丰富的速录师与人工转写团队,成本相对高昂,而随着智能语音转写产品的规模化落地应用,该类存量市场可借助智能转写产品,实现对人工转写的有效辅助及优化,为下游客户提供更高质效的人机耦合服务;此外,转写应用仍有更大规模的潜在市场需求待挖掘,原受限于渠道、价格等因素,转写产品多应用于有垂类转写需求的小众应用领域,而智能语音转写产品逐步让转写应用实现泛化,市场边界也将逐步扩散,未来智能语音转写产品有望开发更多潜在增量市场,撬动可用智能转写产品满足的长尾需求,进一步优化用户的应用体验。来源:艾瑞研究院根据公开材料自主研究绘制。智能语音转写产品在助力转写人力基础上,可满足更多潜在、可被优化的转写场景需求。智能语音转写产品意义 1)优化传统转写人力服务2)满足更多潜在可被优化需求增量 市场 存量 市场 本身场景存在潜在转写需求,但 人力实现需要高成本或原本人力难以做到,而智能转写产品可 开 发该类潜在增量市场,释放更多产值规模。传统人工转写费时费力,且转写质量与个人能力高度挂钩,可借力 智能转写产品提高存量市场的转写服务渗透率。通过智能语音转写产品撬动更多长尾需求 例:个人办公场景,有会议内容的潜在转写需求,出于时长与精力考量不会自做,出于成本考量不会外购,但可通过智能语音转写产品获得优质高效、兼具性价比的转写服务。例:沟通交流场景,在多语种、方言沟通的日常交流环境中,存 在潜在语音转写需求,可通过转写产品跨越语言障碍,实现高效沟通。13智能语音转写行业 发展背景篇 1智能语音转写行业 市场分析篇 2智能语音转写行业典型企业案例 3智能语音转写行业 发展趋势篇 4142022.12 iResearch I智能语音转写产业图谱 来源:艾瑞根据公开资料自主研究绘制。下游应用领域 2022 年中国智能语音转写产业图谱 办公场景 传媒场景 电商直播 翻译场景 上游基础设施层 产品及解决方案提供商 服务器 云服务 数据服务 开源模型 智能语音企业 云服务厂商 专业转写/翻译厂商 C端用户 B端企业 G端政府 其他场景 152022.12 iResearch I智能语音转写的发展驱力(1/5)智能语音转写可化解人工成本走高与质量要求提升的发展矛盾 近十年来,中国人口增势放缓,劳动人口红利见顶,供应结构性短缺致使企业人力用工成本不断攀升。根据国家统计局数据,2020 年中国租赁和商务服务业城镇单位就业人员平均工资已达到 92924 元,相比十年前涨幅已达到 1.35 倍。人工转写成本的大幅上涨为转写行业带来更多价格压力。此外,随着转写场景的泛化升级,转写需求渗透到各行各业,转写内容专业度也不断提升,具备行业背景知识的转写译员更成为市场供给侧的稀缺人力资源,且转写交付水平存在不稳定性,与 个人服务能力高度挂钩。在此发展背景下,转写市场亟需智能语音转写产品,以辅助优化人工转写产品的角度切入,提供低成本、高质量、具备稳定交付水平的转写服务,满足更多市场需求缺口。395664697653162625386713172489767828139385147881909292418.7%13.2%17.6%7.3%8.0%5.9%6.0%4.6%3.6%5.4%2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020租赁和商务服务业城镇单位就业人员平均工资(元)平均工资增长率(%)2010-2020 年中国租赁和商务服务业城镇单位就业人员平均工资情况 来源:国家统计局,艾瑞研究院自主研究绘制。162022.12 iResearch I 2022.12 iResearch I智能语音转写的发展驱力(2/5)企业协同在线办公常态化,助力转写功能实现更多用户触达 2020 年初,受疫情影响,很多企业无法按时复工复产,远程办公成为维持社会经济正常运行的重要平台应用,用户需求显著提升,视频会议、电话会议、在线文档编辑等远程协作功能得到更广泛应用。根据中国互联网络发展统计报告数据,2022 年月中国在线办公用户规模已跃升至 4.7亿,相比 2020 年 6月增长幅度高达 131.4%。如今疫情仍在延宕反复,随着用户在线协同办公习惯的逐渐养成,远程协同办公或将成为常态化运营工具,持续推动企业数字化转型。而相较于硬件录音与录音应用的产品形式,会议应用无需用户购买录音设备或额外开启录音应用即可触达转写服务,提供了更直接的应用切入点,助力转写功能在办公场景实现更广泛的用户触达。来源:中国互联网络发展统计报告,艾瑞研究院自主研究绘制。来源:艾瑞研究院自主研究绘制。2018 年 6月-2022 年 6月中国在线办公 用户规模及使用率 2.0 3.5 3.8 4.7 4.6 21.2%34.9%37.7%45.4%43.8%2020.6 2020.12 2021.6 2021.12 2022.6用户规模(亿人)使用率(%)办公场景对智能转写产品的需求分析 录音应用 硬件录音 会议应用 转 写 产 品 办 公 场 景 e.g.录音笔 e.g.语音备忘录 e.g.腾讯会议、讯飞听见 专业办公人士,高频录音场景,对会议转写有强需求,需要额外硬件设备提供在线/离线转写服务。会议 APP 提供远程会议平台,通过会议 APP 录制音视频,为转写产品提供直接功能切入点。通过手机或电脑的录音软件录音,随后将录音文件上传至平台或 APP,完成录音文件转写。需要硬件设备 需要额外录音 搭载办公 会议平台 相较传统需要录音笔与录音应用的场景,协同在线办公平台及会议应用 让转写功能触达到更多办公人群,应用渗透率进一步提升。172022.12 iResearch I 2022.12 iResearch I智能语音转写的发展驱力(3/5)网络视频兴起,为转写产品开拓更多应用空间 随着数字技术与互联网技术的普及,网络视频快速发展,短视频因满足用户高涨的碎片化娱乐需求而迎来一拨爆发式增长,进一步提升用户对整体网络视频领域的关注度与渗透率。如今网络视频已然成为人们生活娱乐、了解信息的重要组成形式。根据中国互联网络发展统计报告数据,2022 年 6月,中国网络视频用户规模已经达到 9.9亿人,占全部网民的 94.6%。作 为网络视频的供给方,自媒体工作者、长视频内容编辑方均对视频内容的字幕转写具备强需求,一方面字幕可帮助用户更好观看视频内容,并在静音模式也不影响观看;另一方面字幕转写还可提供翻译功能,助力网络视频在国际环境下的推动传播;此外,对于平台监管方来说,语音转写可服务于平台内容监控需求,及时进行内容管理,避免网络直播及视频带来的合规风险。综合来看,网络视频的长足发展为转写产品开拓了更多市场应用空间。来源:中国互联网络发展统计报告,艾瑞研究院自主研究绘制。来源:中国互联网络发展统计报告,艾瑞研究院自主研究绘制。7.1 7.2 7.6 8.5 8.9 9.3 9.4 9.7 9.9 88.7%87.5%88.8%94.1%94.5%93.7%93.4%94.5%94.6%2018.62018.122019.62020.32020.62020.122021.62021.122022.6用户规模(亿人)使用率(%)2018 年 6月-2022 年 6月中国网络视频(含短视 频)用户规模及使用率 网络视频对智能转写产品的需求分析 自媒体 多语种转写 长视频编辑 语音内容监控 服务于 内容生产用户,智能切分时间轴。生成带时间戳的转写字幕内容,支持在线编辑调整,极大提升自媒体工作者的字幕配置效率。为外语视频提供转写及翻译服务,可根据需要配置专业翻译团队,实现高效人机耦合,完成多语种的字幕制作及翻译需求。服务于长视频编辑工作者,例如电影、纪录片等,长视频的语音转写更强调上下文联系及方言理解,对语音技术提出更高要求。实时转写可 实时识别直播内容风险,并给出及时警告提示;非实时转写可 对 平台内容进行进一步甄别提示。182022.12 iResearch I 2022.12 iResearch I智能语音转写的市场环境(4/5)会展双线融合举办不断提升,SaaS 转写产品需求走高 在 2020 年以前,会展行业多在线下举行。面对国际语言的交流环境,会展行业的字幕转写产品大多采用线下人机耦合的服务模式,即专业的语音转写服务团队与硬件机器设备相结合,为会展交流提供字幕上屏、多语种同传等的现场会议服务。而在疫情多点散发的情况下,会展活动的举办面临很多不确定性因素。根据中国会展主办机构数字化调研报告显示,2021 年,疫情导致各类会展活动取消、延期、异地举办,会展活动选择线上线下相结合模式举办成为常态。字幕转写产品形态也由原来线下的人机耦合形式逐渐倾向于线上 SaaS 服务形式,并可配合线上人工智能服务团队或翻译团队提供实时校验服务。此外,SaaS 产品形态的需求延伸进一步丰富转写产品的客群覆盖度,除会展举办方外,更多 C端用户也可通过 SaaS 转写及翻译产品满足个人国际参会、实时翻译的会展需求。2021 年中国会展主办机构办展办会方式 注释:N=195。来源:DRCEO:中国会展主办机构数字化调研 2022,艾瑞咨询研究院整理及绘制。2021 年中国会展主办机构调研主要数据 注释:N=195。来源:DRCEO:中国会展主办机构数字化调研 2022,艾瑞咨询研究院整理及绘制。根据调研显示,近 70%的 主办机构选择双线融合办展的方式,线上线下结合已成为会展常态。u 双线融合办展趋势 31.3%的机构认为数字化转型是大方向,超过 50%的机构已经开始数字化转型尝试。u 数字化转型方向 根据调研显示,超过 60%的会展机构能获得各位数字化收入。但数字化收入占比有待提升。u 数字化收入占比 超过 90%的机构对数字化 转型呈积极与乐观态度,该比例相较于 2020 年提升6个百分点。u 数字化转型态度 73508327102213 1483320 214910161纯线下举办 纯线上举办 线上+线下相结合举办 1-3场(个)4-5场(个)6-10 场(个)10 场以上(个)以上均没有举办(个)线上会展成为线下举办的延伸助力,线上+线下呈现深度融合的发展趋势192022.12 iResearch I 2022.12 iResearch I智能语音转写的市场环境(5/5)转写产品助力解决出海生态下的复合型翻译人才需求 近年来虽然新冠疫情反复、地缘冲突加剧,全球经济发展变数频发,但中国企业出海浪潮已逐渐越过探索期,在视频、游 戏、电商、企业级 SaaS 服务等各领域催生出“出海繁荣”。2021 年,中国对外直接投资净额 1788.2亿美元,比上年增长16.3%,连续十年位列全球前三,且超越出现统计数据以来首次负增长的 2017 年绝对值。目前,由于海外市场仍处于高速增长阶段且出海市场各赛道集中度不高,我国出海行业仍具有极大潜力,在企业业务运营、跨国交流等领域对复合型翻译人才需求较大。根据中国翻译协会调研,高级翻译人才稀缺、非通用语种人才匮乏、高校教育与实际工作需求脱节、无 法满足多个专业领域翻译需求是翻译行业面临的发展难点。在此背景下,智能语音转写产品的翻译及同传功能,不仅能有效提高翻译工作者的工作效率,同时人机耦合的形式也使各领域的非翻译专业人才具备完成业务需要翻译工作的可能性。来源:商务部、国家统计局和国家外汇管理局,艾瑞研究院绘制。来源:中国翻译协会 2022中国翻译人才发展报告,艾瑞研究院绘制。2016-2021 年中国对外直接投资净额 1582.9 1430.4 1369.1 1537.1 1788.2-19.3%-9.6%-4.3%12.3%16.3%2017 2018 2019 2020 2021中国对外直接投资净额(亿美元)增长率(%)2021 年中国复合型翻译人才需求情况 31%27%13%8%8%7%6%外交学、国际关系 新闻传播类 理工及其他专业 法学类 经济学类 哲学类、中国语言文学 类 电子信息类、管理科学 与工程类202022.12 iResearch I智能语音转写的行业规模 需求活力持续注入,预计 2026 年市场规模达 38 亿 目前,智能转写产品率先在办公会议、传媒音视频、会展交流等领域展开应用,用户接受度日益成熟。据艾瑞研究院统计 测算,2021 年中国智能语音转写市场规模已约为 10 亿元。未来,随着智能转写的技术突破、功能丰富及场景泛化,智能 转写市场规模将加速上扬。此外,转写产品可结合 NLP、知识图谱技术在单纯转写内容的基础上升级为分析策略的输出层 级,释放更多价值势能,预计 2026 年中国智能语音转写行业市场规模将达到 38 亿元,2021-2026 五年 CAGR=30.7%。来源:艾瑞研究院根据桌研与专家访谈自主建模测算。2021-2026 年中国智能 转写行 业规模 10131722293828.3%29.9%31.1%32.9%31.4%2021 2022e 2023e 2024e 2025e 2026e智能转写行业规模(亿元)智能转写行业规模增长率(%)212022.12 iResearch I智能语音转写的参与者类型 以语音技术、产品生态、细分领域为多样立足点 根据参与厂商的市场立足点划分,智能语音转写赛道的玩家可分为语音技术厂商、云服务厂商与专业转写及翻译服务商。其中语音技术厂商在语音识别能力、转写服务水平上具备先发优势,且投入足够精力进行技术研发与产品打磨,产品化能力优秀,现占据智能语音转写市场的主流厂商地位;而云服务厂商的转写能力对内服务于内部产品的转写功能需求,对外多选择开放语音转写能力达成外部合作以丰富平台生态,垂直于转写的产品化能力较弱;专业转写及翻译厂商通常以细分领域切入,深耕于办公、翻译、传媒等某个细分领域,在垂类市场提供精细化、客制化产品及解决方案,满足细分客户的转写服务需要。来源:艾瑞研究院自主研究绘制。智能语音转写参与者类型分析 以语音技术切入 以产品生态切入 以细分领域切入 语音技术 厂商 云服务 厂商 专业转写/翻译厂商 强于语音识别能力,为客户提供 语音转写接口、SaaS 产品及全套 解决方案等多样化转写产品形式。除软件服务外,硬件设备是触达 用户的核心端口,部分语音技术 厂商选择从 AIoT 领域切入,依托 于智能耳机、智能录音笔、智慧 屏等智能硬件产品进一步开拓转 写应用场景 传统转写或翻译服务商,持续积 累垂直转写需求客群,顺应智能 转写技术发展,切入细分领域,提供人机耦合的优化产品服务。依附公司产品生态,见长于平台 化能力,在办公、泛娱乐、教育 等场景搭配软硬件产品输出转写 能力,一般分为对内与对外服务 厂商代表:科大讯飞、搜狗 听写、思必驰、捷通华声 厂商代表:阿里云、腾讯云、百度云、火山引擎 厂商代表:网易见外、迅捷 语音222022.12 iResearch I智能语音转写的产品形态 包括 SaaS 类产品及本地化部署解决方案,均可结合智能硬件 智能语音转写服务的产品形态主要包括 SaaS 类产品与本地化部署解决方案两大类。以 SaaS 类产品为主,其核心是提供云端语音识别及转写服务,根据客户分类与应用情景差异,包括轻量级的网页版/APP/PC/小程序产品和提供给 B/G 端客户的 API 开发接口。SaaS 类产品的主要特点是价格相对便宜、便捷度较高;而本地化部署的解决方案主要是为了满足客户的安全隐私与定制化需求,例如接入到政企内部办公平台等,需要服务商具备定制化开发能力。此外,为了提升语音采集的质量及多样化的移动应用场景,头部厂商如讯飞听见、搜狗听写等开发了种类丰富的功能性智能转写硬件,如录音笔、麦 克风、智慧屏等,可提供云端或本地转写、录音、存储、编辑一体服务。来源:艾瑞研究院根据公开资料自主研究绘制。智能语音转写产品形态 提供 单机版软件/私有化部署 SDK 接口,在本地可运行语音识别及转写能力。满足客户的定制化需求与安全隐私需求,但部署成本高,主要面向对数据安全需求较高的大型企业或公检法、广电传媒等政府客户 通过硬件内置芯片与本地词库,提 供本地/离线转写服务。满足对数 据及网络安全、便捷性及移动办公 等需求。移动端转写能力与实用性 的提升,扩充转写功能的适用范围 SaaS 类产品 本地化部署解决方案 通过 Web/APP/PC/小程序等 提供云端语音识别及转写服务,主要服务于 C端客户或企业账户,企业账户或具备空间管理、协同编辑等增值服务。通过行业词库和模型优化,产品可满足传媒、教培、金融、客服等多场景应用需求 以 录音笔、麦 克风、智慧屏等语音采集硬件为依托,调 用云端语音识别及转写能力 利用麦克风阵列,通过声学技术保障 拾音效果,以提升 语音采集精准度。软硬一体 形式提升 转写质量及效率,并满足会议、访谈 等多类型需求场景
展开阅读全文
相关资源
相关搜索
资源标签

copyright@ 2017-2022 报告吧 版权所有
经营许可证编号:宁ICP备17002310号 | 增值电信业务经营许可证编号:宁B2-20200018  | 宁公网安备64010602000642