2019年中国语音助手行业研究报告.pdf

返回 相关 举报
2019年中国语音助手行业研究报告.pdf_第1页
第1页 / 共30页
2019年中国语音助手行业研究报告.pdf_第2页
第2页 / 共30页
2019年中国语音助手行业研究报告.pdf_第3页
第3页 / 共30页
2019年中国语音助手行业研究报告.pdf_第4页
第4页 / 共30页
2019年中国语音助手行业研究报告.pdf_第5页
第5页 / 共30页
亲,该文档总共30页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
1 报告编码19RI0847 头豹研究院 | 人工智能系列深度研究 400-072-5588 2019 年 中国语音助手行业研究报告 报告摘要 TMT 团队 各企业开发和掌握的语音助手技术的本质区别逐渐 缩小,技术壁垒效应逐渐被削弱,技术已不再是企 业构建商业模式的最主要基础。全产业链布局及语 音助手生态体系构建将成为语音助手服务商持续发 展的主要途径,应用场景的开发将是语音助手厂商 未来的主要关注点。目前智能手机、智能家居以及 智能车载三大场景发展基础良好,需求较大,成为 各类型厂商激烈争夺的领域。 热点一: 语音助手市场前景广阔 热点二: 语音助手应用场景逐渐丰富 热点三: 语音助手未来将可听、可视、可触摸 语音交互成为人工智能的必然趋势,语音助手逐渐与 各类型人工智能产品深度融合。随着产品智能化的深 入, 搭载语音助手的智能设备数将逐步增长。 搭载语音 助手的智能设备的消费量亦会有所增长,推动中国语 音助手市场规模进一步扩大。 语音助手的场景化解决方案将逐渐丰富,语音交互方 式作为人机交互的重要演进方向,正逐步渗透到人们 的日常生活中,与各类型应用场景相结合。 随着人工智能的智能程度提升, 语音、 图像、 视频等模 态将趋于融合,语音助手可视化将成为可能。类比人 类的语言感知过程,智能人机交互也将向语音、图像、 视频等多模态融合方向发展, 语音助手通过收集声音、 语言、视觉、触觉等感知信息,以自然语言处理为主, 辅以唇语识别、表情认定、姿势识别、情绪感知等技 术,将数据多维度融合以实现人工智能从感知转变为 认知。 卢佩珊 邮箱:csleadleo 分析师 行业走势图 相关热点报告 人工智能系列深度研究 科创板上市, 人工智能行业借 势迎来发展 人工智能系列深度研究 沙利文助力 2019 全球人工智 能健康峰会成功举办, 共同推 动全球人工智能技术和产业 发展 人工智能系列深度研究 谷歌上线“猜画小歌”,智能技 术与人们生活越来越近 人工智能系列深度研究 产品智能化浪潮开启, 智能家 居风口已至 2 报告编码19RI0549 目录 1 方法论 . 5 1.1 方法论 . 5 1.2 名词解释 . 6 2 中国语音助手行业市场综述 . 7 2.1 语音助手定义 . 7 2.2 语音助手相关技术 . 7 2.3 语音助手应用领域 . 8 2.4 中国语音助手产业链分析 . 10 2.4.1 产业链上游 . 12 2.4.2 产业链中游 . 13 2.4.3 产业链下游 . 13 2.5 中国语音助手市场规模 . 14 3 中国语音助手行业驱动因素 . 16 3.1 基础硬件设施进步为行业发展提供基础 . 16 3.2 智能语音技术的进步提高助手的智能程度 . 16 4 中国语音助手行业制约因素 . 18 4.1 语音识别技术未解决实际场景识别问题 . 18 3 报告编码19RI0549 4.2 机器的自然语言理解能力仍显不足 . 18 4.3 数据孤岛导致数据资源得不到全面开发 . 19 5 中国语音助手行业相关政策法规 . 20 6 中国语音助手行业发展趋势 . 22 6.1 语音助手应用场景逐渐丰富 . 22 6.2 语音与视觉等模态相互融合 . 22 7 中国语音助手行业竞争格局 . 24 7.1 中国语音助手行业竞争现状分析 . 24 7.2 中国语音助手行业典型企业分析 . 25 7.2.1 苏州思必驰信息科技有限公司 . 25 7.2.2 北京云知声信息技术有限公司 . 26 7.2.3 北京智齿博创科技有限公司 . 27 4 报告编码19RI0549 图表目录 图 2-1 中国语音助手产业链 . 10 图 2-2 中国用户对语音助手的关注面,2018 年 . 14 图 2-3 中国语音助手市场规模(按收入计) ,2014-2023 年预测 . 15 图 5-1 中国语音助手行业相关政策 . 21 5 报告编码19RI0549 1 方法论 1.1 方法论 头豹研究院布局中国市场, 深入研究 10 大行业, 54 个垂直行业的市场变化, 已经积累 了近 50 万行业研究样本,完成近 10,000 多个独立的研究咨询项目。 研究院依托中国活跃的经济环境,从人工智能、大数据、智能语音等领域着手,研 究内容覆盖整个行业的发展周期,伴随着行业中企业的创立,发展,扩张,到企业 走向上市及上市后的成熟期, 研究院的各行业研究员探索和评估行业中多变的产业 模式,企业的商业模式和运营模式,以专业的视野解读行业的沿革。 研究院融合传统与新型的研究方法, 采用自主研发的算法, 结合行业交叉的大数据, 以多元化的调研方法, 挖掘定量数据背后的逻辑, 分析定性内容背后的观点, 客观 和真实地阐述行业的现状, 前瞻性地预测行业未来的发展趋势, 在研究院的每一份 研究报告中,完整地呈现行业的过去,现在和未来。 研究院密切关注行业发展最新动向,报告内容及数据会随着行业发展、技术革新、 竞争格局变化、政策法规颁布、市场调研深入,保持不断更新与优化。 研究院秉承匠心研究, 砥砺前行的宗旨, 从战略的角度分析行业, 从执行的层面阅 读行业,为每一个行业的报告阅读者提供值得品鉴的研究报告。 头豹研究院本次研究于 2019 年 8 月完成。 6 报告编码19RI0549 1.2 名词解释 LibriSpeech:语音数据,内容包括 1,000 小时的英文发音和对应文字。 麦克风阵列: 设置两组以上麦克风, 对音讯进行侦测, 所得到的资料交由数字信号处理 器进行比对,用以还原声音的原貌,并消除背景杂音。 鲁棒性(Robust) :系统的健壮性,指系统在不同应用条件下的性能稳定性。 语料:语言材料,是构成语料库的基本单元。 7 报告编码19RI0549 2 中国语音助手行业市场综述 2.1 语音助手定义 语音助手是以语音识别技术和语音合成技术为基础, 通过语音信息实现人机交互, 给用 户反馈信息或替代用户及企业执行任务的虚拟助手。 2.2 语音助手相关技术 语音助手是机器感知与处理人类语音信息的应用, 需要人工智能语音相关技术, 如语音 识别技术、语音合成技术以及自然语言处理技术的辅助,赋予其语音感知与处理能力。 (1) 语音识别技术 语音识别技术以语音为研究对象, 通过识别与处理语音信号使计算机自动识别和理解人 类口述的语言。 计算机通过语音识别和理解的过程将人类口述的语音信号转变为机器可处理 的文本。 计算机的语音识别过程可概括为: 系统对语音信号进行分析和处理, 除去冗余信息, 提取语音信号中的关键信息和表达语言含义的特征信息, 并按照不同语言的语法规则给关键 信息划分段落, 取出已识别出的字词连接成句, 结合语义理解适当调整句子构成, 修正已生 成的句子内容。 (2) 语音合成技术 语音合成技术是计算机将文本信息转换成语音的技术,赋予机器“讲话”能力。语音合 成技术的实现过程主要包括文本分析和语音合成两个步骤。 文本分析是计算机基于语言学原 理, 将文本标准化的过程。 计算机将自然语言文本中的数字、 缩略语等转换为系统标记词后 进行语义理解, 并为文字序列配上语音脚本, 通过语音脚本将文字序列转换成音韵序列。 语 音合成是计算机将音韵序列合成为语音波形,输出语音流的过程。 (3) 声纹识别技术 8 报告编码19RI0549 声纹识别技术是计算机通过语音信号提取发声者独有的声门开合频率、 口腔大小形状及 声道长度等声学特征识别发声者身份的技术。声纹是一种承载语音频谱(语音、语调等)的 音频信息, 不同生物个体的发音器官具有独特性, 发出的声纹信息各不相同, 声纹信息可用 于身份鉴别。 声纹识别技术可用于辨认发声者以及确认发声, 即从若干发声者中寻找指定发 声者以及确认声音是否由指定发声者发出。 (4) 自然语言处理技术 自然语言处理是计算机理解和生成自然语言的过程, 自然语言处理技术使计算机具有识 别、分析、理解和生成自然语言文本(包括字、词、句和篇章)的能力。自然语言处理机制 涉及自然语言理解和自然语言生成两个流程: 自然语言理解: 计算机理解自然语言文本的 思想和意图;自然语言生成:计算机用自然语言文本表述思想和意图。 2.3 语音助手应用领域 语音助手的应用场景广阔, 众多智能设备通过接入语音助手提升智能化水平。 语音助手 具体的应用场景可分为消费级应用场景和行业应用场景。 (1) 消费级应用场景 语音助手+车载 按键或触控操作对驾驶员而言安全系数较低, 在驾驶过程中使用容易引发安全事故。 语 音控制在车载场景中是替代按键或触控的最佳方案, 既能避免驾驶员分心, 又能提升驾驶员 的驾驶体验。 各大汽车厂商开始在前装控制系统中搭载语音控制方案, 通过语音助手处理驾 驶员对导航、 音乐搜索与播放、 信息听写等任务的指令。 众多语音助手行业巨头纷纷推出语 音车载产品, 如科大讯飞推出汽车语点系统, 百度推出 Carlife 智能车载系统支持语音声控, 并与部分汽车厂商达成合作,实现其语音助手在车载场景的投放。 语音助手+家居 9 报告编码19RI0549 语音助手是智能家居的入口端, 智能家居通过语音助手与用户交互。 语音助手可与空调、 电视、音响、灯具、玩具等家用设备和智能家居控制中枢系统相结合,控制互联的智能家居 产品, 如长虹、 LG、 TCL 等主流的智能电视内嵌了语音助手, 用户通过命令语音助手可实现 查收影视剧、听歌、发微博、开关电视等功能。 语音助手+智能手机 为了提升用户体验,智能手机普遍配备语音助手功能,如 iphone 配备 Siri,小米手机 配备小爱同学等。智能手机通过语音助手解放用户双手,进一步提升其智能水平。 (2) 专业级行业应用场景 语音助手+医疗行业 语音助手在医疗行业的应用涉及语音导诊机器人、 临床病历的语音录入及转写、 智能辅 助诊疗等。随着市场需求的增加,语音助手企业纷纷入局医疗行业,例如,科大讯飞的智能 语音系统已在全国多家医院落地使用, 科大讯飞与北京大学口腔医院口腔数字化医疗技术和 材料国家工程实验室共建基于语音的门诊病历采集系统,并将该系统在医院实现试点投放。 语音助手+教育行业 语音助手在教育行业的应用已深入到教育体系的“学、练、测、评”全部环节,主要产 品有智能教育机器人、语音测评、人机口语对话训练、互动教学等。例如,科大讯飞将语音 助手应用在口语训练、口语考试以及儿童早教智能硬件产品中。 语音助手+客服行业 语音助手在客户服务领域的应用较为广泛,覆盖金融、交通、电信、旅游等行业。机器 人客服相比传统客服,具有成本低、全天候 24 小时坐班、时刻待命等优点。随着人力成本 上升,企业对智能客服的需求将会逐步加大。 10 报告编码19RI0549 2.4 中国语音助手产业链分析 语音助手产业链上游市场主体为基础资源提供商, 包括硬件供应商 (如芯片供应商、 服 务器供应商和存储供应商等)和软件供应商(如云服务供应商和数据库供应商等) ;中游市 场主要由语音助手技术提供商组成, 包括语音助手算法供应商、 语音助手软件应用供应商以 及语音助手行业解决方案提供商, 负责将语音助手技术转化为具体应用或解决方案, 为下游 需求端提供服务。语音助手下游应用场景广阔,覆盖智能移动设备、智能家居、车载、金融 以及客服等场景, 涉及 B 端和 C 端用户主体, 包括各类型机构用户、 企业用户和个人用户。 图 2-1 中国语音助手产业链 来源:头豹研究院编辑整理 11 报告编码19RI0549 12 报告编码19RI0549 2.4.1 产业链上游 语音助手产业链上游市场由基础资源供应商组成, 涉及网络设备、 服务器、 芯片、 存储、 云服务、 数据库等软、 硬件供应商, 负责为语音助手技术和产品开发商提供必要的资源支持。 (1) 芯片 人工智能芯片作为语音助手产业的核心, 芯片的技术成熟度影响语音助手的性能。 人工 智能芯片行业的技术门槛较高, 高端芯片技术均被海外芯片巨头垄断, 技术壁垒高。 中国人 工智能芯片依赖进口,导致语音助手服务商的制造成本居高不下,压缩企业利润空间。 人工智能芯片按不同的应用场景可分为通用类人工智能芯片、 云端人工智能芯片、 终端 人工智能芯片。 在通用类人工智能芯片领域, 美国的英伟达占据主导地位, 中国的人工智 能芯片企业实力较薄弱,缺乏国际竞争力。在云端人工智能芯片领域,英特尔、亚马逊等 海外企业占据较大的市场份额, 部分中国企业陆续布局云端推断市场, 但竞争力较弱。 在 终端人工智能芯片领域, 中国企业取得较大进展寒武纪、 地平线和深鉴科技等一批优质企业 相继诞生。 (2) 云服务 云服务供应商为语音助手研发企业提供基础设施平台, 解决语音助手技术研发厂商的数 据存储、运算以及调用问题。由于性价比、部署方式等因素,语音助手研发企业较多选用公 有云服务。 目前, 公有云服务供应商有: 通过云服务产业链资源优势拓展至公有云服务行业的企 业,如电信运营商、网络设备制造商、IDC 厂商等,此类企业拥有较强的资金实力,加上本 身处在公有云产业链上游,基础设施方面优势明显;大型互联网企业,如亚马逊、腾讯、 阿里巴巴等,此类企业资金实力雄厚,客户认可度高,设施齐备、技术成熟,具备发展公有 云业务的有利条件;传统的软件企业,如 Microsoft、Oracle、金蝶等,此类企业的软件 13 报告编码19RI0549 产品的市场认可度高, 技术积累丰厚, 客户资源丰富, 有利于向公有云市场拓展。 除此之外, 行业中存在不少新兴的创业公司,如青云、Ucloud、七牛云等。 2.4.2 产业链中游 语音助手产业链中游市场主体主要有语音助手算法提供商、 行业解决方案提供商以及应 用产品开发商。中国的语音助手厂商较多集研发算法、解决方案以及应用产品功能于一身, 厂商自主研发语音助手算法, 形成一整套语音助手关键技术方案, 并将自主研发的语音助手 算法以及技术方案内嵌于硬件产品中, 典型代表企业有百度、 腾讯以及阿里巴巴。 例如百度 开发了度秘, 并将度秘置于百度搜索、 百度地图、 百度新闻等软件产品以及百度音箱等硬件 产品中。 部分语音助手技术提供商专注于智能语音技术研发, 为下游应用领域提供定制化的 语音技术解决方案,如 OPPO 手机的小欧助手和华为手机的小 E 助手均采用科大讯飞的语 音技术解决方案。 2.4.3 产业链下游 语音助手下游应用场景广阔,涉及金融、医疗、教育、汽车、消费电子产品等行业,其 中智能手机、 智能家居以及车载应用是语音助手在 C 端市场的主要应用场景; 智能客服、 机 器人是目前语音助手在 B 端市场能产生营收的主要应用场景。 目前语音助手技术发展并未成熟, 语音助手的用户体验尚待提升。 头豹研究院调研数据 显示,用户最在意语音助手的语义语音识别准确度(占比达 49.2%) ,68.2%的受访用户 认为语音助手的语义/语音识别准确度有待提升。 14 报告编码19RI0549 图 2-2 中国用户对语音助手的关注面,2018 年 来源:头豹研究院编辑整理 2.5 中国语音助手市场规模 现阶段,搭载语音助手的设备产品主要有智能手机、智能家居产品(如智能冰箱、智能 空调、智能洗衣机、智能照明等)以及智能汽车,其中智能手机是语音助手的主要载体;智 能家居产品丰富, 且产品具有刚性需求, 为语音助手提供丰富的落地载体选择; 智能汽车正 逐步替代传统汽车,其市场潜力带动语音助手需求提升。2014-2018 年间,中国语音助手 市场规模实现快速增长,年复合增长率达 78.6%。 语音交互成为人工智能的必然趋势, 语音助手逐渐与各类型人工智能产品深度融合。 随 着产品智能化的深入, 搭载语音助手的智能设备数将逐步增长。 由于中国居民消费水平提升, 消费主力群体代际变迁等因素, 搭载语音助手的智能设备的消费量将会有所增长, 推动中国 语音助手市场规模进一步扩大, 预计到 2023 年, 中国语音助手市场规模将增长至 570.3 亿 元人民币。 15 报告编码19RI0549 图 2-3 中国语音助手市场规模(按收入计) ,2014-2023 年预测 来源:头豹研究院编辑整理 16 报告编码19RI0549 3 中国语音助手行业驱动因素 3.1 基础硬件设施进步为行业发展提供基础 人工智能芯片的发展提高语音助手行业数据处理能力,增强语音助手的语音交互能力, 有利于提升用户体验。 人工智能芯片的算力决定了计算机处理语音数据的速度以及语音交互 的智能程度, 在传统的云端计算方案中, 终端设备将数据全部上传至云端, 通过云端计算分 析后将结果传送回终端, 庞大的数据和运算量导致设备运行成本和功耗居高不下, 且容易导 致终端设备人机交互延时以及卡顿,影响用户体验。 终端人工智能芯片的发展, 解决了数据在终端的运算问题, 终端深度集成语音芯片将芯 片和语音处理算法组合成模块, 置于终端设备中, 赋予终端设备语音数据处理能力, 当用户 向设备发送指令, 麦克风接受语音信息并将其转换成电信号, 芯片模块处理分析电信号, 实 现终端的实时数据处理, 减少因数据传输造成的反应延时。 此外, 终端深度集成语音芯片拥 有较大的数据存储空间, 可将语料数据保存于终端, 保证隐私数据的安全性。 终端深度集成 语音芯片的发展, 既能减少向云端传输的数据量, 降低终端设备运行成本, 又能提高语音助 手的反应速度,提升用户体验,为语音助手的推广应用提供坚实的基础。 3.2 智能语音技术的进步提高助手的智能程度 智能语音技术进步提升了语音助手的智能化程度, 助力语音助手产品的推广。 现阶段的 语音合成技术已接近人类的发音水平, 语音助手开始拥有语调、 情绪的变化, 能更好地吸引 用户与其交互。 语音识别技术随着深度神经网络的广泛使用, 语音识别准确率取得飞跃式的 突破,2018 年 10 月云从科技在开源语音识别数据集 LibriSpeech 上刷新世界纪录,其语 音识别准确率可达 97.03%。 新一代语音识别算法框架、 口语化语音识别、 个性化语音识别、 智能对话、 音视频融合以及语音合成等基础理论研究和技术研究的资源投入进一步加大, 部 17 报告编码19RI0549 分场景和领域的技术研发有重大突破, 在远距离和复杂场景下的语音采集与识别技术有所提 升,如思必驰推出的“环形 6+1 远场”麦克风阵列方案,利用 6 个麦克风呈环形 360排 列,环形中间放置 1 个麦克风辅助拾音,有效地对远场语音进行抗噪处理,其远场 5 米范 围内的语音识别准确率达 92%,该方案目前已在智能家居场景中被广泛运用。针对医疗、 教育、 商贸等专用词汇较多的专业领域, 语音助手技术亦有针对性的优化, 使语音助手能更 好地适应行业发展需求,辅助行业用户智能地执行任务。 18 报告编码19RI0549 4 中国语音助手行业制约因素 4.1 语音识别技术未解决实际场景识别问题 目前的语音识别技术仅在特定领域、 特定环境下达到实用化程度, 业内企业实现的 97% 的语音识别准确率较多是基于安静室内环境产生的人工测评结果, 在实际使用场景中, 尤其 是在自由发音、 强噪声、 多人同时发声、 远端声场等环境下, 机器的语音识别性能并不理想。 在语音助手的真实使用场景中,方言、噪音、远场、断句等情况不可避免,语音采集地 点变更导致的环境及背景噪音差异、 语音信号传输载体方式多样导致的传输信道差异, 都将 造成语音信号的频谱畸变, 导致语音系统难以准确识别用户话语, 对用户需求的理解产生偏 差。 语音识别技术的成熟度将影响语音助手应用产品生态的构建与发展, 语音识别技术仍需 提升抗干扰能力,其“鲁棒性”问题亟待解决。 4.2 机器的自然语言理解能力仍显不足 现阶段, 语音助手的自然语言理解能力与人类助手的自然语言理解能力相差甚远, 语音 助手为用户带来的人机交互体验不佳, 与用户的生活结合程度依旧不深。 语音助手与用户日 常生活的结合深度较大程度上取决于语音助手的人机交互能力, 拥有良好交互能力的语音助 手能方便用户支配, 但机器的人机交互能力受自然语言理解能力的影响, 目前机器对自然语 言的理解准确度不高, 导致用户对语音助手的人机交互体验不佳。 机器由于难以拥有生活常 识、 文化背景和人类风俗习惯知识储备, 对于作为文化载体的自然语言, 无法结合具体的语 言环境、 风俗习惯等因素分析语言内容, 只能通过系统设定的规则机械地分析源语的语法结 构,语言逻辑无法处理,对于复杂句子结构或一词多义的情况,机器的理解能力有限。机器 不具备上下文功能, 无法将聊天中的信息与上下文关联, 遇到一词多义的情况, 机器无法像 人类般基于已有知识储备和上下文环境确定多义词的意思, 导致语音助手无法准确判定用户 19 报告编码19RI0549 的意图,人机交互不顺畅。 此外, 现阶段的自然语言处理模型未能解决用户表达中的常识问题和个性化问题, 导致 用户对语音助手指派命令时需要使用特定用语, 严重影响用户的人机交互体验, 如用户对手 机语音助手发号 “查找附近的餐馆” 指令时, 语音助手会在地图上执行查找附近餐馆的任务, 并显示附近餐馆信息,但若用户说“我饿了” ,手机语音助手则不会有任何反应,因为语音 助手缺乏“饿了需要进食”的常识,无法为用户自动执行查找餐馆的任务,而人类助手听了 “我饿了”的话语,就知道雇主“需要进食” ,需要为雇主执行与进食相关的任务。语音助 手无法全面理解用户的表达,其不智能程度大幅降低用户与其交互的意愿。 4.3 数据孤岛导致数据资源得不到全面开发 数据是人工智能发展的基石, 海量数据为训练人工智能提供原材料。 中国人口基数庞大, 可所产生海量的数据资源为智能语音的发展提供充足的训练素材, 但目前中国的智能语音行 业仍缺乏一个标准的跨平台数据共享系统, 巨头企业掌握大量数据资源, 不对外开放, 不利 于小企业或初创企业的数据积累。 与此同时, 各企业利用自有数据资源独立研发, 各类型语 音软件系统兼容度不高, 进一步阻碍数据资源的自由流通。 缺少数据的智能语音企业难以提 高模型的识别准确度, 影响产品的投放以及市场份额的拓展, 企业的发展受限不利于行业的 快速扩张。 缺少统一的数据共享系统在一定程度上会制约中国智能语音行业的快速发展, 未 来, 相关部门需要对数据共享制定规范与准则, 帮助数据有效分享, 促进数据资源的合理运 作。 20 报告编码19RI0549 5 中国语音助手行业相关政策法规 2015 年以来,中央及各地方政府陆续出台相关政策,积极支持人工智能产业的发展, 并推进人工智能在各个细分领域的渗透和壮大。2015 年 7 月,国务院发布关于积极推进 “互联网+” 行动的指导意见 , 将 “互联网+人工智能” 列为其中 11 项重点行动之一。 2017 年 7 月,国务院印发新一代人工智能发展规划 ,将人工智能上升至国家战略,并确立了 人工智能发展三步走的目标,为中国人工智能产业发力奠定制度基础。2017 年 10 月,十 九大将“人工智能”写进党代会报告, 并提出加快建设制造强国, 发展先进制造业, 推动互 联网、大数据、人工智能和实体经济深度融合等意见。截至 2018 年,中央及各地方政府在 短短 3 年内出台了 60 余项与人工智能产业发展相关的政策, 足以看出国家对人工智能产业 化的重视。智能语音助手是人工智能的应用体现,同样受到政策的鼓励发展。 2016 年 5 月,发改委、科技部、工信部及中央网信办联合发布 “互联网”+人工智能 三年行动实施方案要求加快建设文献、语音、图像、视频、地图等多种类数据的海量训练 资源库和基础资源服务公共平台, 建设支撑超大规模深度学习的新型计算集群, 建立完善产 业公共服务平台。进一步推进计算机视觉、智能语音处理、生物特征识别、自然语言理解、 智能决策控制以及新型人机交互等关键技术的研发和产业化,为产业智能化升级夯实基础。 2017 年 7 月,国务院发布新一代人工智能发展规划 ,要求加快培育人工智能产业 领军企业。 在无人机、 语音识别、 图像识别等优势领域加快打造人工智能全球领军企业和品 牌,推动国内优势企业、行业组织、科研机构、高校等联合组建中国人工智能产业技术创新 联盟, 支持龙头骨干企业构建开源硬件工厂、 开源软件平台, 形成集聚各类资源的创新生态, 促进人工智能中小微企业发展,支持各类机构和平台面向人工智能企业提供专业化服务。 2017 年 12 月, 工信部印发 促进新一代人工智能产业发展三年行动计划 (2018-2020 21 报告编码19RI0549 年) ,鼓励支持新一代语音识别框架、口语化语音识别、个性化语音识别、智能对话、音视 频融合、语音合成等技术的创新应用,在智能制造、智能家居等重点领域开展推广应用。到 2020 年, 实现多场景下中文语音识别平均准确率达到 96%, 5 米远场识别率超 92%, 用户 对话意图识别准确率超 90%。 2018 年 11 月,工信部发布新一代人工智能产业创新重点任务揭榜工作方案 ,提出 面向语音识别、视觉识别、自然语言处理等基础领域及工业、医疗、金融、交通等行业领域 建设高质量人工智能训练资源库、标准测试数据集。到 2020 年,基础语音、视频图像、文 本对话等公共训练数据量大幅提升,在工业、医疗、金融、交通等领域汇集一定规模的行业 应用数据,用于支持创业创新。 图 5-1 中国语音助手行业相关政策 来源:头豹研究院编辑整理 22 报告编码19RI0549 6 中国语音助手行业发展趋势 6.1 语音助手应用场景逐渐丰富 语音助手的场景化解决方案将逐渐丰富。语音交互方式作为人机交互的重要演进方向, 正逐步渗透到人们的日常生活中, 与各类型应用场景相结合。 与场景贴合是技术实现商业化 的主要途径, 为适应不同场景的语音交互需求, 语音助手必须贴合不同应用场景, 深入剖析 场景真实环境,结合各行业专业知识体系,提供针对性的行业或应用解决方案。例如,在智 能车载领域, 语音助手企业开始从车内真实环境出发, 为车厂量身定制具有语音控制、 语音 导航以及语音呼叫等功能的语音助手方案。 在医疗领域, 适用于医疗行业的语音助手被广泛 用于临床文档改良、 临床语音识别、 辅助医疗质量把控等工作中, 充分协助医护人员完成大 量程序化的工作,推进智慧医疗的发展进程。语音助手技术巨头科大讯飞已成功地为全国 100 多家医院提供量身定制的智能医疗语音解决方案。随着传统行业业务处理智能化需求 上涨,语音交互方式与传统行业的结合将逐步加深,将为语音助手创造更多可投放场景。 6.2 语音与视觉等模态相互融合 随着人工智能的智能程度提升,语音、图像、视频等模态将趋于融合,语音助手可视化 将成为可能。深度学习神经网络的引进使得语言模态、文字模态、图像模态、视频模态的编 码和解码可在同一个深度学习框架下统一运行,不同模态的对象可被同一模式编码与解码, 同一模式的编码与解码可使不同模态对象随意融合, 语音分析结果可与图像分析结果结合应 用。 语音助手将可模拟人类的语言认知过程, 将语音和视觉同时作为语音理解源, 不仅通过 声音来获取信息,同时还用眼睛观察说话者口型、表情的变化,提升语言感知能力。 类比人类的语言感知过程, 智能人机交互也将向语音、 图像、 视频等多模态融合方向发 展,语音助手通过收集声音、语言、视觉、触觉等感知信息,以自然语言处理为主,辅以唇 23 报告编码19RI0549 语识别、表情认定、姿势识别、情绪感知等技术,将数据多维度融合以实现人工智能从感知 转变为认知。 24 报告编码19RI0549 7 中国语音助手行业竞争格局 7.1 中国语音助手行业竞争现状分析 中国语音助手服务商可分为以百度为代表的互联网巨头企业, 以科大讯飞为代表的智能 语音技术巨头企业以及以云知声为代表的深耕于垂直领域和细分场景的初创企业。 互联网巨头企业拥有丰富的客户资源以及完善的产品生态, 其可将自主研发的语音助手 投放于自有产品生态中,同时可利用丰富的 C 端产品经验及用户数据为语音助手的功能化 设计提供基础, 基于用户需求驱动产品的发展与落地。 与此同时, 互联网巨头企业通过开放 语音平台, 以产业内合作的方式, 将语音助手植入合作伙伴的产品或相关业务场景中, 实现 其语音助手应用场景的快速构建,抢先占领广阔的人工智能设备入口端。 智能语音技术巨头企业拥有较强的技术实力, 在语音助手行业拥有先发优势, 占据较大 的市场份额。 但随着深度学习算法的成熟
展开阅读全文
相关资源
相关搜索
资源标签

copyright@ 2017-2022 报告吧 版权所有
经营许可证编号:宁ICP备17002310号 | 增值电信业务经营许可证编号:宁B2-20200018  | 宁公网安备64010602000642