从语音合成(TTS)的发展探寻智能语音行业的现状与未来.pdf

返回 相关 举报
从语音合成(TTS)的发展探寻智能语音行业的现状与未来.pdf_第1页
第1页 / 共37页
从语音合成(TTS)的发展探寻智能语音行业的现状与未来.pdf_第2页
第2页 / 共37页
从语音合成(TTS)的发展探寻智能语音行业的现状与未来.pdf_第3页
第3页 / 共37页
从语音合成(TTS)的发展探寻智能语音行业的现状与未来.pdf_第4页
第4页 / 共37页
从语音合成(TTS)的发展探寻智能语音行业的现状与未来.pdf_第5页
第5页 / 共37页
亲,该文档总共37页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
1 报告提供的任何内容(包括但不限于数据、文字、图表、图像等)均系头豹研究院独有的高度机密性文件(在报告中另行标明出处者除外)。未经头豹 研究院事先书面许可,任何人不得以任何方式擅自复制、再造、传播、出版、引用、改编、汇编本报告内容,若有违反上述约定的行为发生,头豹研究 院保留采取法律措施、追究相关人员责任的权利。头豹研究院开展的所有商业活动均使用“头豹研究院”或“头豹”的商号、商标,头豹研究院无任何前述 名称之外的其他分支机构,也未授权或聘用其他任何第三方代表头豹研究院开展商业活动。 头豹研究院 精品报告: 从语音合成(TTS)的发展探寻智 能语音行业的现状与未来 High-quality Report: From The Development of Speech Synthesis (TTS) Explore The Current Situation and Future of The Intelligent Voice Industry : 声合成(tts) 発展 、声業界現状未来探 报告标签:语音交互、智能语音、科大讯飞 头豹市场研读 | 2021/062 头豹研究院是中国大陆地区首家B2B模式人工智能技术的互联网商业咨询平台,已形成集 行业研究、政企咨询、产业规划、会展会议行业服务等业务为一体的一站式行业服务体系, 整合多方资源,致力于为用户提供最专业、最完整、最省时的行业和企业数据库服务,帮助用 户实现知识共建,产权共享 公司致力于以优质商业资源共享为基础,利用大数据、区块链和人工智能等技术,围绕产业 焦点、热点问题,基于丰富案例和海量数据,通过开放合作的研究平台,汇集各界智慧,推 动产业健康、有序、可持续发展 300+ 50万+ 行业专家库 1万+ 注册机构用户 公司目标客户群体覆 盖率高,PE/VC、投 行覆盖率达80% 资深分析师 和研究员 2,500+ 细分行业进 行深入研究 25万+ 数据元素 企业服务 为企业提供定制化报告服务、管理咨询、战略调 整等服务 提供行业分析师外派驻场服务,平台数据库、报 告库及内部研究团队提供技术支持服务 云研究院服务 行业峰会策划、奖项评选、行业白皮书等服务 行业排名、展会宣传 地方产业规划,园区企业孵化服务 园区规划、产业规划 四大核心服务: 头豹研究院简介3 报告阅读渠道 头豹科技创新网 PC端阅读全行业、千本研报 头豹小程序 微信小程序搜索“头豹”、手机扫上方二维码阅读研报 添加右侧头豹研究院分析师微信,邀您进入行研报告分享交流微信群 图说 表说 专家说 数说 详情咨询4 2020 LeadLeo 语音交互:语音合成 沙利文市场研读 | 2020/12 概览摘要 近年来,智能语音行业多家企业在上市程序上折 戟沉沙。2月19日,上交所发布公告称,云知声 和其保荐人中金公司于2021年2月18日向上交所 提交了撤回IPO申请文件。根据规定,上交所决定 终止云知声的发行上市审核。智能语音在上市程 序上的表现不禁让市场疑惑,作为AI领域的重要 组成部分,智能语音为何屡屡受挫,长期亏损? 是技术原因还是市场导致? 本文主要关注于智能语音中合成语音(TTS)部分 的市场现状,了解TTS技术的现状,产业链情况, 分析了TTS的技术应用场景以及未来的发展难点和 趋势。 语音合成模型已经发展到第三代 语音合成模型经过长时间的发展,由最初的基于拼接 合成,到参数合成,逐渐达到了现阶段感情充沛的基 于端到端合成,最新一代端到端合成降低了对语言学 知识的要求,可批量实现多语种的合成系统,语音自 然程度高。 TTS技术主要分为两种 TTS语音主要分为通用TTS和个性化TTS,通用TTS适 用于导航、语音播报、智能客服和大多数语音交互场 景,个性化TTS则主要应用于对声音质量较高的教育, 长音频、直播以及影视游戏配音等场景当中。 TTS技术助力长音频行业的发展 中国用户在网络音频上的MAU已经从2019年的342分 钟快速增长至2020年的600分钟,长音频市场未来发 展潜力巨大,长音频作品大量都基于文字脚本而来, TTS技术能够大大减少将文字转为语音的时间和财务成 本,也为长音频作品带来创新体验。 语音合成行业格局稳定,未来注重商用落地 语音合成行业发展较成熟,原有格局难以打破,新进 入者只能通过弯道超车或差异化竞争打破僵局,用户 的需求将会变得多样,这对语音合成行业也是巨大挑 战,在未来,语音合成技术也将逐步打开商用化道路, 应用场景将逐渐细化和专业。 2021 LeadLeo 头豹市场研读 | 2021/065 语音交互:语音合成 头豹市场研读 | 2021/06 2021 LeadLeo 400-072-5588 目录 名词解释 - 07 语音合成的定义与结构 - 08 语音合成声学系统的发展 - 09 语音合成的主观评价标准 - 10 语音合成的客观评价标准 - 11 语音合成产品质量分析评价 - 12 语音合成产业链分析 - 13 上游数据产品及服务 - 14 中游语音合成行业 - 16 下游TTS的主要应用领域 - 17 下游TTS在导航领域的应用 - 18 下游TTS在长音频领域的应用 -1 9 下游TTS在泛娱乐领域的应用 -2 0 下游TTS在教育领域的应用 - 21 语音合成的应用风险 - 22 语音合成行业政策分析 - 23 语音合成的发展难点与未来 - 24 语音合成行业企业分析科大讯飞 -2 5 语音合成行业企业分析云知声 - 27 语音合成行业企业对比毛利率 - 30 语音合成行业企业对比销售费用 -3 1 中国语音合成优质企业倒映有声 -3 2 海外语音合成优质企业Sonantic - 33 方法论 - 34 法律声明 - 356 语音交互:语音合成 头豹市场研读 | 2021/06 2021 LeadLeo 400-072-5588 Terms - 07 Definition and structure of TTS - 08 Development of TTS acoustic systems - 09 Subjective Evaluation Criteria for TTS - 10 Objective Evaluation Criteria for TTS - 11 Quality analysis and evaluation of speech synthesis products - 12 TTS Industry Chain - 13 Upstream - Data Products and Services - 14 Midstream TTS Industry - 16 Downstream - TTS Applications in Navigation - 17 Downstream - TTS Applications in The Long Audio Field - 18 Downstream - TTS Applications in The Field of Pan- Entertainment - 19 Downstream - Application of TTS in The Field of Education - 20 Application Risks of Speech Synthesis - 21 Speech Synthesis Industry Policy Analysis - 22 Development Difficulties and Future of TTS - 23 Enterprise Analysis of Speech Synthesis Industry - IFlytek - 24 Enterprise Analysis of Speech Synthesis Industry - Cloud Voice - 25 Speech Synthesis Industry Enterprise Comparison - Gross Margin - 27 Speech Synthesis Industry Enterprise Comparison - Selling Expenses - 30 High-quality Enterprise of China TTS -DaoYIngYouSheng - 31 High quality Enterprise of Overseas TTS - Sonantic - 32 Methodology - 33 Legal Statement - 34 Contents7 2021 LeadLeo 语音交互:语音合成 头豹市场研读 | 2021/06 名词解释 算法:解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制 算力:计算能力 人工智能(AI):Artificial Intelligence,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的 一门技术科学 机器学习(ML):Machine Learning,是一门专门研究计算机模拟或实现人类的学习行为,以获取新的知识或技能,重新 组织已有的知识结构使之不断改善自身性能的学科 深度学习(DL):Deep Learning,机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网 络,它模仿人脑的机制来解释数据,例如图像、声音和文本 深度神经网络(DNN):Deep Neural Network,是一个多层的人工神经网络模型,包含了:输入层,隐藏层和输出层 人工神经网络(ANN):Artificial Neural Networks,是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模 型。在工程与学术界也常直接简称为“神经网络”或“类神经网络” 智能语音:实现人机语言的通信,包括语音识别技术(ASR)和语音合成技术(TTS) 语音识别(ASR):Automatic Speech Recognition,是让机器能够“听懂”人类语音的技术,通过机器自动将语音信号转 换为文本,是实现智能人机交互的关键技术之一 自然语言/自然语言处理(NLP):Natural Language Processing,是计算机科学领域与人工智能领域中的一个重要方向, 研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法 隐马尔可夫模型(HMM):Hidden Markov Model,它用来描述一个含有隐含未知参数的马尔可夫过程8 语音交互:语音合成 头豹市场研读 | 2021/06 2021 LeadLeo 400-072-5588 语音合成的定义与结构 语音合成让人工智能开口说话 语音合成又称文语转换(Text to Speech,TTS)技术,是语音处理领域的一个重要研究方向,旨在让机器生 成自然动听的人类语音。语音合成技术既可以单独适用于不同的场景之内,也可以作为尾部环节嵌入到语 音交互的整体方案之中。 语音合成技术内部分为前端和后端 语音合成技术内部分为前端和后端。前端主要负责文本的语言解析和处理,其处理内容主要包括语种、分 词、词性预测、多音字处理、韵律预测、情感等。把文本上的发音的这些信息都预测出来之后,将信息送 给TTS的后端系统,后台声学系统融合这些信息之后,将内容转化为语音。后端声学系统发展历程较长, 从第一代的语音拼接合成,到第二代的语音参数合成,到第三代端到端合成,后端声学系统的智能化程度 逐步增加,训练素材需要标记的详细程度和难度也在逐步减弱。 语音合成的应用可以划分 为单向 语音输 出类和 交互类 ,单一 使用单 向语音 输出类 或交互 类 的场景并不多见,导航技 术、阅 读、配 音、语 音播报 等场景 下,单 向语音 输出应 用比例 较 大,智能客服、智能机器 人、泛 娱乐产 业、教 育等场 景下, 交互类 语音合 成使用 较多 TTS在语音交互场景里的应用 智能终端 语音识别 (ASR) 语音合成 (TTS ) 自然语言生成 (NLG) 对话管理 (DM) 自然语言理解 (NLU) 指令文本 用户意图 决定动作 生成文本 生成 语音 识别语音 语音交互链路 发出指令 终端回复 前端语言分析 后端声学系统 语音合成技术(TTS) 文本 输入 文本结构与 语种判断 文本标准化 文本转音素 句读韵律预测 一代: 拼接合成 二代: 参数合成 三代: 端到端合成 来源:头豹研究院编辑整理9 语音交互:语音合成 头豹市场研读 | 2021/06 2021 LeadLeo 400-072-5588 参数合成:通过深度学习构建文本特征和音库之间的映射关 系,构建参数合成模型,当输入一个语言学特征时,基于神 经网络给出声频特征,后通过声码器合成语音波形 优点:音库数量要求不多,合成语音连接平稳,质量高 缺点:对声码器依赖程度高,同时,由于传统参数系统建模 时存在信息损失,限制了合成语音表现力的进一步提升 语音合成声学系统的发展 拼接合成:为了更好的拟合人声,拼接合成技术需要一个大 规模的真人音库,音库内容按照音素和不同特征进行标注, 合成时根据语言学特征寻找符合的音素,拼接起来完成合成 优点:效果接近真人,运算量低 缺点:拼接而成,语音不连贯,依赖音库,需要人工介入制 定很多挑选规则和参数,制作成本高 语音合成模型经过长时间 的发展 ,由最 初的基 于拼接 合成, 到参数 合成, 逐渐达 到了现 阶 段感情充沛的基于端到端 合成, 最新一 代端到 端合成 降低了 对语言 学知识 的要求 ,可批 量 实现多语种的合成系统, 语音自 然程度 高 来源:头豹研究院编辑整理 第二代:基于参数合成 语音 音 库 语音参数提取 HMM训练 上下文相关HMM 序列决策 语音参数 生成 参数合成器 合成语音 输入文本 文本分析 上下文 属性和 问题集 标注 第一代:基于拼接合成 输入文本 拼音信息与韵律结构信息 目标代价寻找候选单元 文本分 析技术 大规模 音库 合成语音 端到端合成:端到端语音合成一定程度上解决了拼接合成和参数合成存在的部分缺陷。端到端合成系统直接输入文本或者注音字 符,通过文本或者文本特征和语音直接建模,跳过声码器阶段,减少了对声码器的依赖,弱化前端概念 优点:降低对语言学知识的要求,可方便的在不同语种上复制,批量实现几十种甚至更多语种的合成系统,语音自然程度高 缺点:运算量大,无法人工调优,实时性低 第三代:基于端到端(以Tactron为例) 初始化帧 CBHG模块 预处理层 前端处理 文本 注意力机制 Pre-net Pre-net Pre-net RNN RNN RNN RNN RNN RNN CBHG模块 Griffin-Lim算法 语音10 语音交互:语音合成 头豹市场研读 | 2021/06 2021 LeadLeo 400-072-5588 语音合成的主观评价标准 MOS值测试 语音合成发展历史悠久,技术较为成熟,已形成产品广泛应用于商业。作为产品,语音合成技术需要一套 量化的评价标准用以评判合成语音的质量。现阶段,业内较为认可的主观评价标准为Mos(Mean Opinion Score)值测试。Mos测试值评价会邀请业内专家,从音质、流畅程度、正确性、自然度、分词与停顿、 音色6个方面,根据专家主观意见,对合成语音进行打分。再根据打分的平均值得到合成语音的最终评分。 MOS值能够有效合理的评价合成语音质量,其从使用者的感官角度出发,既评测了合成语音的声音质量, 也对合成语音的拟人化、自然度做出了评价,是行业内较为通用的评价机制。但MOS值主要依靠人为打 分,具有一定的主观性,同时,MOS值的打分需要许多领域内的人员进行打分,这需要昂贵的人力资源 和时间开销,因此自动打分MOS的系统被提出,比如MOSNET,AutoNET等等,一定程度上替代了全人工 MOS值测试。 ABX测评 ABX测评主要是对合成效果进行对比性测试。主要方式是通过相同文本与音色来对比不同的TTS系统的语 音合成效果,ABX测评人为主观判断较多,这种方式更注重通过参照对比,来评价合成语音的适宜性和效 果,有一定的优越性。 语音合成的主观效果指标 分为Mos值 测试和 A B X测试两种, MOS值主要关注于 语音本 身的质 量。而ABX则更注重通过参 照对比 ,用来 评价合 成语音 的适宜 性和效 果 中国市场 中国 语音合成MOS值测试指标 来源:头豹研究院编辑整理 Mos评分 评级 音质 流畅度 正确性 自然度 分词与停顿 音色 5 优 广播级别 高 高 很自然,已无法分辨 合成声音与自然人声 高优 秀 4.5 普通人对话 水平 高高 整体完整,没有明显 的不正常的韵律起伏 高 较优秀 4 一到两个音 节模糊 无明显卡顿 无明显错误 无严重韵律错误 无明显错误 良好 3.5 良 偶尔有几个 音节不清晰 比较流畅 错误较少 韵律起伏较为正常 较为正常 较好 3 中 有一些音节 不清晰 不太流畅 有容易察觉的 语言错误 有一些不太正常的韵 律起伏 有一定错误 一般 2 差 有一些词不 太清晰 不流畅 难以理解 基本没有韵律起伏 错误较多 差 1 劣 很不清晰 无流畅可言 基本无法理解 基本没有韵律起伏 错误较多 明显机 器音11 语音交互:语音合成 头豹市场研读 | 2021/06 2021 LeadLeo 400-072-5588 语音合成的客观评价标准 语音合成的客观性能指标 主要包 括实时 率(RTF)、首包响应 时间和 并发数 ,实时 率和首 包响 应时间注重与用户体验, 而并发 数关注 的重点 则是技 术层面 和生产 成本 来源:头豹研究院编辑整理 实时率(RTF) 与 首包响应时间 并发数 RTF 文字合成所需时长 文字合成出的音频时长 TTS所对应的合成时间保持在500ms内较为理想 实时率是评估合成语音的参数之一,要求语音合成系统在接收到指令后快速以最快的速度合成语音,力 求尽可能缩短用户的等待时间,提高用户体验。一般情况而言,语音交互期望的整体时延在2秒左右, 理想情况在1.5秒,整体时延包括前端ASR、NLP等所花费的时间,因此,TTS所对应的合成时间保持在 500ms内较为理想。 非流式合成适合语音输出,流式合成适合语音交互 语音合成分为非流式合成和流式合成,两者在合成语音实时性上关注的重点也不同。非流式合成方式一 次性输入文字,一次性输出语音,注重语音合成系统的整体运算速度,该TTS方案不适合做语音交互。 而流式合成、可以基于文本预测进行分词断句,分段传回合成的音频,这种语音合成方式主要关注其首 包响应时间,首包响应时间越短,用户就会越快取得回应,用户等待和空白的时间减少,不会因为等待 回应而失去耐心,因此整体体验感较好,是更适合作为语音交互的TTS方案。 语音交互场景下离线TTS为较好选择 当前的语音合成系统分为云端TTS和离线TTS。云端TTS主要配套端到端或者多层神经网络的算法,语音 输出质量更高,算力更强,但因此实时性更差,不适宜语音交互。而随着离线TTS算力以及算法得逐步 更新,发展情况较好,一些参数化合成的TTS方案已经能够以10字/100ms左右的延时,合成质量也达到 一定水平,适合于合成语音的交互类场景。 单核并发数 N段文字合成出的音频时长 N段文字合成所需时长 实现一核多线能有效减少成本花费 为了资源的利用率最大化,应用时保持TTS方案的RTF接近1或等于1即可,当RTF远小于1则可实现一核多 线。线数即单线并发数,单线并发数越多,则需要的核数越少,并发数量的增加将减少服务器的成本费 用。比如当用户需要200线程的语音合成并发数,如果实现一核5线,就需要64核CPU服务器实现,如果 能达到一核10线,则24核的CPU服务器即可满足客户需求,为客户节省了成本12 语音交互:语音合成 头豹市场研读 | 2021/06 2021 LeadLeo 400-072-5588 语音合成产品质量分析评价 当前,中国语音合成产品 已经从 初步发 展走向 成熟, 语音合 成产品 的拟人 化程度 、自然 度 已实现飞跃,涌现出一批 优质企 业如科 大讯飞 等 来源:各企业官网,Blizzard Challenge官网,头豹研究院编辑整理 自然度(参考MOS值) 相似度 错误率 可懂度 语音种类 可离线程度 领域覆盖 价格 科大讯飞 云知声 深声科技 灵伴科技 百度 自然度方面,科大讯飞保 持较大优势,多次在国际 语音合成大赛B l i z z a r d Challenge中取得第一名, 其MOS值在2019年已经达 到了4.5,与真人的4.7区别 细微 价格方面,科大讯飞和 深声科技的价格最高, 价格最低的为百度,其 中科大讯飞和百度主要 为通用型TTS,深声科技 主要为个性化TTS 从离线程度来看,部分 厂商已实现了离线语音 合成,但离线语音合成 质量各不相同,部分厂 商只能实现半离线语音 合成或实现在弱网环境 下语音合成 语音种类的丰富程度也 在一定程度上展示了语 音合成厂家的能力。科 大讯飞凭借19个语种, 11种方言,2种民族语言 独占鳌头,灵伴科技拥 有50种合成音色,为客 户提供多种选择 2 错误率方面,中 国厂商语音合成 错误率保持在 9.2%9.8%之间, 差距较为微弱 科大讯飞:行业内领军企业,在语音 合成乃至智能语音行业均属于龙头企 业,其技术水平和产品质量均较好, 不足在于产品价格较高 百度:整体技术和产品质量均价较好, 以通用TTS为主,价格是多家中最低 的,应用领域较为广泛,定价多元, 市场认可度较高 云知声:产品性能稍逊色于科大讯飞 和百度,但依旧受到市场认可,其产 品的性价比较高,但可选择的语音和 语种较少 中国语音合成厂商产品质量雷达图,2021年 5 4 3 113 语音交互:语音合成 头豹市场研读 | 2021/06 2021 LeadLeo 400-072-5588 语音合成产业链分析 语音合成的产业链上中下 游呈现 一定的 一体化 趋势, 尤其是 上中游 融合趋 势较为 明显, 中 游竞争格局已初步显现, 下游应 用场景 多样, 商用化 落地实 现盈利 成为重 点 来源:各企业官网,头豹研究院编辑整理 人工智能数据产品及服务隶属于人工智能产业链的基础层, 是自主研发人工智能技术的企业与机构必需的基础生产要素, 其数量多寡和质量高低将会直接影响到人工智能产业链内企 业的研发周期、产品性能和可扩展性。语音合成企业需要向 上游购买训练数据或服务,以达成人工智能模型的实现。 部分数据标记企业为了使业务能够可持续发展而不受到产业 自身限制,也开始拓展自己的业务边界,开拓了自有TTS的 产品线。 截止到2020年12月,中国数据标准企业数量达到705家,数 据标记企业30%左右分布于北京,其次为上海和成都。行业 内不少企业成立于中国人工智能行业兴起的2015年之后,数 据标记乃至数据产品服务行业整体较为新兴。 上游:数据产品及服务 中游:语音合成行业 下游:应用领域 总体来看,TTS产业链 的上中游呈现一体化的 融合趋势。 通用TTS发音相对的机械化,声韵比较平淡,但是优点在于 通用TTS口齿清晰,听者可以准确获取声音信息,因此,通 用TTS适用于导航、语音播报、智能客服和大多数语音交互 场景。由于他对音色,情感上没有过多要求,因此其制作成 本整体而言较为低廉。 个性化TTS在通用TTS的基础上更加注重音色和情感,情感和 声音的表现力比通用型TTS更强,这类声音主要应用于对声 音质量较高的教育,长音频、直播以及影视游戏配音等场景 当中。现阶段,互联网大企业涉足个性化TTS服务这一业务 较少,创新性中小企业踊跃出现。基于个性化TTS的复杂程 度,相比通用型TTS,个性化TTS的制作成本相对高昂。 60% 利润率(不包括研发成本) 60%90% 数据标记 准确率 TTS中游利润率保持在 6080%之间,但前期 研发投入较多导致部分 TTS企业尚未实现盈利。 个性化TTS最早落地于导航领域产品,其原因主要在于导航 语音的话术较为固定,只有约20%变量的部分是用TTS合成出 来的,基于个性化TTS的早期水平并不成熟,因此,个性化 TTS的IP价值首先体现在了导航领域。 长音频是个性化TTS发展的有利平台.TTS技术能够大大减少将 文字转为语音的时间和财务成本,极大的压缩了长音频广播 剧,有声书等的制作周期,能够更快节奏的,及时的将长音 频作品呈现到用户眼前。 4.3 5.5 6.0 7.4 7.7 8.8 0.0 2.0 4.0 6.0 8.0 10.0 中国长音频用户规模,2016-2025E 亿人 数据标记准确性,2021年14 语音交互:语音合成 头豹市场研读 | 2021/06 2021 LeadLeo 400-072-5588 语音合成产业链上游数据产品及服务(1) 数据是人工智能达成的基础 人工智能数据产品及服务隶属于人工智能产业链的基础层,是自主研发人工智能技术的企业与机构必需的 基础生产要素,其数量多寡和质量高低将会直接影响到人工智能产业链内企业的研发周期、产品性能和可 扩展性。语音合成企业需要向上游购买训练数据或服务,以达成人工智能模型的实现。 数据服务随AI行业成长而发展 随着人工智能的发展,机器深度学习技术取得了快速提高,而实现机器的深度学习需要大数据和大算力的 支持。这为数据产品及服务行业带来了巨大的市场。 截止到2020年12月,中国数据标准企业数量达到705家,数据标记企业30%左右分布于北京,其次为上海和 成都。行业内不少企业成立于中国人工智能行业兴起的2015年之后,其中2017、2018年成立的企业占到行 业整体企业数量的80%,数据标记乃至数据产品服务行业整体较为新兴。 但整体来说,投资界对行业投资热情较高,从2015-2020年,数据标注服务行业的投资数量达到33起,其 中龙头企业海天瑞声与2020年登陆科创板,行业发展较为红火。数据显示,到2019年,数据标注行业市场 规模已超过25亿元人民币,在未来5年,数据标记及服务行业的年复合增长率将超过15%。市场的快速发展 有利于推动行业的进步,同时,有利于中游企业挑选合适的数据服务供应商。 行业发展缺乏核心技术,较容易复制,可替代性强 数据标记行业技术性不强,但对规模的要求较高,需要人力进行准确地识别和转写,对人力的依赖程度较 大,属于劳动密集型行业。同时,由于自然人工作的局限性,数据标注的准确度质量只能保持在70%-90% 之间,难以达到100%。数据标注行业整体缺乏核心技术,商业模式较容易复制,随着新进入者越来越多, 行业内的竞争会进一步加剧。 人工智能数据产品及服务 隶属于 人工智 能产业 链的基 础层, 是自主 研发人 工智能 技术的 企 业与机构必需的基础生产 要素, 实现机 器的深 度学习 需要大 数据和 大算力 的支持 ,这为 数 据产品及服务行业带来了 巨大的 市场 来源:海天瑞声招股说明书,头豹研究院编辑整理 深圳:63家 代表企业:蔚蓝智能、 MBH莫比嗨客 北京:185家 代表企业:basicFinder、Testin云测、 海天瑞声、数据堂、标贝科技、星尘 数据 上海:84家 代表企业:荟萃、格物钛 成都:68家 代表企业:淘金你我 河南:63家 代表企业:千机数据、点我 科技、翎澳数据 中国数据标注企业分布,2020年15 语音交互:语音合成 头豹市场研读 | 2021/06 2021 LeadLeo 400-072-5588 语音合成产业链上游数据产品及服务(2) 大厂设立自有数据标注公司 数据标记行业内的公司主要分为两种,一种为内需驱动型,为的是满足自有公司的需求,中国的一些互联 网企业,如百度、阿里巴巴、腾讯等都建立了自有的数据标记众包平台。这类公司一般已经拥有完善的供 应商体系和供应商评价机制,标注工具和标注管理方式已经实现标准化管理,因此,对标准供应商在技术 实力、质量、及时性和多样化上均有较高要求。 TTS企业后向一体化,产业链出现融合趋势 另一种为技术驱动型的,可能本身企业是TTS企业或数据标记工具生产企业,但是在自有产品的生产过程 中,也加入了数据标记服务的生产行列。这类企业会根据自己本身的优势,例如TTS企业更加理解客户需 求、数据标记工具生产企业借助自己的标记工具提高标记效率等,以此取得行业竞争优势。同时,部分数 据标记企业为了使业务能够可持续发展而不受到产业自身限制,也开始拓展自己的业务边界,开拓了自有 TTS的产品线。例如作为数据标记龙头企业的海天瑞声开展GPS业务。总体来看,TTS产业链的上中游呈现 一体化的融合趋势。 数据标记对人工依赖程度较大,暂时无法被人工智能取代 通过人工智能标记数据在应用层面已经实现,这种标记方式主要是借助之前用人工的方式标记过类似的大 量的数据,专门训练一个模型去模拟人去实现标记操作,这种方式在一定程度上可以减轻数据标记的人工 工作量。但其并不能实现完全自动化。原因在于实际上人工智能训练数据的错误率较高,需要人工进行校 正,因此人工智能只能作为数据标记的一个辅助工具,而不能有效替代人工在数据标记行业的作用。 数据标记行业将朝着高质量,专业化发展 现阶段,数据标记的准确性在约60%-70%,高质量的数据标记准确性在约90%,在未来,标注质量将成为竞 争的核心因素,在算法模型的不断优化,应用场景的不断多样的趋势下,人工智能训练所需要的数据标记 质量和精度将会不断提高,因此保持高准确度将会是数据标注企业的行业核心竞争力。同时,随着应用场 景的多元化,涉及较为专业的细分领域,如医疗、教育等数据标记企业也将会突出重围。 为了满足企业自我的语音 合成训 练的要 求,部 分大型 互联网 企业建 立自由 语音标 准公司 。 同时,语音合成产业链上 游由于 产业自 身存在 一定局 限,因 此,产 业链上 中游一 体化或 将 成为重要发展趋势 来源:头豹研究院编辑整理 数据标记服务的主要方式 中游企业 接到订单 上游企业 在录音棚进行 基础录音 切成单句 标注声韵、情 感等 客户 发出需求 传回 已标记数据 训练后 交付16 语音交互:语音合成 头豹市场研读 | 2021/06 2021 LeadLeo 400-072-5588 语音合成产业链中游语音合成行业 TTS语音主要分为通用TTS和个性化TTS,使用场景各不相同 通用TTS发音相对的机械化,声韵比较平淡,但是优点在于通用TTS口齿清晰,听者可以准确获取声音信息, 因此,通用TTS适用于导航、语音播报、智能客服和大多数语音交互场景。由于他对音色,情感上没有过 多要求,因此其制作成本整体而言较为低廉。 个性化TTS在通用TTS的基础上更加注重音色和情感,情感和声音的表现力比通用型TTS更强,这类声音主 要应用于对声音质量较高的教育,长音频、直播以及影视游戏配音等场景当中。现阶段,互联网大企业涉 足个性化TTS服务这一业务较少,创新性中小企业踊跃出现。基于个性化TTS的复杂程度,相比通用型TTS, 个性化TTS的制作成本相对高昂。 TTS产品前期投入较多,产品成型后利润较高 作为人工智能工具之一,TTS产品均有一个从模型搭建到深度训练学习到人工智能成型的过程,这其中需 要大量的学习数据作为支持,而且要反复纠错,优化TTS的整体算法以达到理想的输出效果。因此,TTS产 品在前期需要投入大量的研发成本,包括设备、人工、网络等,研发过程持续较长时间。一旦算法模型训 练成熟,TTS产品得以落地,实现商用化,其运营成本较低,主要成本在于人工维护和服务器等,整体利 润率较高,超过60%,市场前景良好。 TTS语音主要分为通用TTS和个性化TTS,通用TTS适用于导航、语音播报 、智能 客服和 大多 数语音交互场景,个性化 TTS则主要应用于对 声音质 量较高 的教育 ,长音 频、直 播以及 影视 游戏配音等场景当中 来源:头豹研究院编辑整理 TTS类型 通用TTS 个性化TTS 流畅程度 高 高 机械声程度 高 低 清晰度 高 高 情感 低 高 制作成本 相对较低 相对较高 应用场景 导航、语音播报、智能客服和大 多数语音交互场景 教育,书籍阅读、直播、影视 配音、游戏配音等 主要厂商 BAT、科大讯飞、思必驰 倒映有声,标贝科技 TTS的主要类型17 语音交互:语音合成 头豹市场研读 | 2021/06 2021 LeadLeo 400-072-5588 语音合成产业链下游TTS的主要应用领域 TTS应用领域非常广泛,一般分为单项应用或嵌入语音交互链 语音合成乃至整个智能语音行业,如何实现商业化落地乃至盈利成为了企业以及投资者关注的重点。语音 合成技术可单独使用,也可作为语音交互的重要输出环节,因此,在智能语音应用越来越充分的背景下, 语音合成技术应用非常广泛,涵盖公共服务、智能硬件、智慧交通、长音频、泛娱乐、教育等行业。 5G时代和碎片化时间增加带动语音合成发展,助力高效率社会 随着5G时代的来临,通讯业逐渐发展,社会整体需要快捷高效的信息传播方式,而语音相比于文字的信息 传播速度更高。城市的扩大,人口密度的增加也为用户带来大量碎片化时间,语音内容受到社会欢迎,因 此,语音合成也找到了用武之地。 随着5G时代的 来临, 通讯业 逐渐发 展,社 会整体 需要快 捷高效 的信息 传播方 式,而 语音相 比于文字的信息传播速度 更高。 城市的 扩大, 人口密 度的增 加也为 用户带 来大量 碎片化 时 间,语音内容受到社会欢 迎,因 此,语 音合成 也找到 了用武 之地 来源:头豹研究院编辑整理 语音合成应用 公共服务 智能播报 智能客服 视障服务 老年服务 智能硬件 智能音箱 智能机器人 智能家居 智慧交通 导航 智能车载设备 长音频 有声阅读 广播剧 新闻资讯 泛娱乐 有声社交 直播 二次元 影视及动画 配音 游戏人物定 制语音 教育 学前教育 语音教育 素质教育 学科教育 课外辅导 语音合成为主 语音交互为主 TTS的主要应用领域18 语音交互:语音合成 头豹市场研读 | 2021/06 2021 LeadLeo 400-072-5588 语音合成产业链下游TTS在导航领域的应用 整体以非交互TTS为核心 导航领域是TTS常用的、普及程度较高的应用场景之一。导航领域的TTS数据量较大,语音内容覆盖范围较 大,又应用于交通领域,因此导航领域对TTS的主要要求为音质清晰,音色较为温和平静,断句清晰,精 度高差错小。导航领域的相关产品,语音部分由交互语音和非交互TTS组成,其中,交互语音的功能占比 较小,因此产品整体以非交互TTS为核心。 个性化TTS最早落地于导航领域产品 最早的导航领域产品多数使用通用型TTS帮助用户实现听音导航,提高了产品使用的便捷性和驾驶的安全 性。随着导航领域产品的逐步成熟,个性化TTS已经成为了差异化竞争的有力工具。 个性化TTS最早落地于导航领域产品,其原因主要在于导航语音的话术较为固定,只有约20%变量的部分是 用TTS合成出来的,基于个性化TTS的早期水平并不成熟,因此,个性化TTS的IP价值首先体现在了导航领域。 以百度地图为例,最早,百度地图通过推出岳云鹏、郭德纲,李佳琦等广受欢迎的明星语音来作为导航语 音,吸引用户群体下载和使用软件。随着语音库的不断扩大,百度地图将不同声音特点,适用于不同季节 的语音进行归类,还建立语音排行榜,让用户寻找到自己最喜欢的声音。现阶段,百度推出”9句话定制自 己的声音导航“让每个人拥有属于自己的导航语音,使百度地图的导航语音实现进一步个性化。 导航领域是TTS常用的、普及程度较高 的应用 场景之 一,导 航领域 对TTS的主要要求 为音质 清晰,音 色较 为温和平 静, 断句清晰 ,精 度高差错 小, 个性化TTS最早落地于 导航 领域产品 , 现如今个性化程度进一步 深入 来源:百度地图,头豹研究院编辑整理 紧跟热点,邀 请明星制作导 航语音包 自动弹出定制语 音包提示,鼓励 用户创作自我导 航语音
展开阅读全文
相关资源
相关搜索
资源标签

copyright@ 2017-2022 报告吧 版权所有
经营许可证编号:宁ICP备17002310号 | 增值电信业务经营许可证编号:宁B2-20200018  | 宁公网安备64010602000642