资源描述
1 报告编码19RI0847 头豹研究院 | 人工智能系列深度研究 400-072-5588 2019 年 中国自然语言处理行业研究报告 报告摘要 TMT 团队 自然语言处理技术是众多人工智能设备(如智能家 居设备、 智能机器人、 智能助手等) 不可或缺的核心 技术,随着人工智能的深入发展,自然语言处理需 求不断提升,智能应用需要自然语言处理技术帮助 其实现智能化。 热点一:市场需求增长,自然语言处理市场空间广阔 热点二厂商集研发算法、解决方案和应用产品功能于一身 热点三:自然语言处理应用逐渐成熟,实现广泛落地 自然语言处理技术是众多人工智能设备(如智能家居设 备、智能机器人、智能助手等)不可或缺的核心技术,随 着智能设备数量增长以及行业智能化业务处理水平要求 的提高,自然语言处理市场有望得到进一步拓展。 目前中国的自然语言处理厂商较多集研发算法、 解决方案 以及应用产品功能于一身, 厂商自主研发自然语言处理算 法, 形成一整套自然语言处理关键技术方案, 并将自主研 发的自然语言处理算法以及技术方案内嵌于自有应用产 品体系中。 得益于自然语言处理技术研究的不断深入, 自然语言处理 应用逐步得到推广,尤其在知识图谱、机器翻译、阅读理 解和智能创作等方面开始产生较成熟的应用。 金融、 医疗、 法律等传统行业的业务处理智能化水平要求上涨, 加速自 然语言处理技术行业应用落地。 卢佩珊 邮箱:csleadleo 分析师 行业走势图 相关热点报告 人工智能系列深度研究 科创板上市,人工智能行业借 势迎来发展 人工智能系列深度研究 沙利文助力 2019 全球人工智 能健康峰会成功举办,共同推 动全球人工智能技术和产业 发展 人工智能系列深度研究 谷歌上线“猜画小歌”,智能技 术与人们生活越来越近 人工智能系列深度研究 产品智能化浪潮开启,智能家 居风口已至 2 报告编码19RI0489 目录 1 方法论 . 5 1.1 方法论 . 5 1.2 名词解释 . 6 2 中国自然语言处理行业市场综述 . 7 2.1 自然语言处理定义 . 7 2.2 自然语言处理环节 . 7 2.3 自然语言处理技术应用 . 8 2.4 中国自然语言处理产业链分析 . 9 2.4.1 产业链上游 . 10 2.4.2 产业链中游 . 12 2.4.3 产业链下游 . 13 2.5 中国自然语言处理市场规模 . 13 3 中国自然语言处理行业驱动因素 . 15 3.1 自然语言处理要素演进,行业迎来变更式发展 . 15 3.2 传统行业智能需求增长,带动语言处理需求上涨 . 16 4 中国自然语言处理行业制约因素 . 17 4.1 自然语言处理存在技术难题 . 17 3 报告编码19RI0489 4.2 自然语言处理模型通用性不强 . 17 4.3 机器理解自然语言技术未有突破 . 18 5 中国自然语言处理行业相关政策法规 . 20 6 中国自然语言处理行业发展趋势 . 22 6.1 多模态语言处理融合 . 22 6.2 自然语言处理应用逐渐成熟 . 22 7 中国自然语言处理行业竞争格局 . 23 7.1 中国自然语言处理行业竞争现状分析 . 23 7.2 中国自然语言处理行业典型企业分析 . 24 7.2.1 新译信息科技(深圳)有限公司 . 24 7.2.2 苏州思必驰信息科技有限公司 . 26 7.2.3 北京智齿博创科技有限公司 . 27 4 报告编码19RI0489 图表目录 图 2-1 中国自然语言处理产业链 . 10 图 2-2 中国自语言处理市场规模(按营收计) ,2014-2023 年预测 . 14 图 5-1 中国自然语言处理行业相关政策 . 21 5 报告编码19RI0489 1 方法论 1.1 方法论 头豹研究院布局中国市场, 深入研究 10 大行业, 54 个垂直行业的市场变化, 已经积累 了近 50 万行业研究样本,完成近 10,000 多个独立的研究咨询项目。 研究院依托中国活跃的经济环境,从人工智能、机器学习、深度学习、语音识别、 语义理解等领域着手, 研究内容覆盖整个行业的发展周期, 伴随着行业中企业的创 立,发展,扩张,到企业走向上市及上市后的成熟期,研究院的各行业研究员探索 和评估行业中多变的产业模式, 企业的商业模式和运营模式, 以专业的视野解读行 业的沿革。 研究院融合传统与新型的研究方法, 采用自主研发的算法, 结合行业交叉的大数据, 以多元化的调研方法, 挖掘定量数据背后的逻辑, 分析定性内容背后的观点, 客观 和真实地阐述行业的现状, 前瞻性地预测行业未来的发展趋势, 在研究院的每一份 研究报告中,完整地呈现行业的过去,现在和未来。 研究院秉承匠心研究, 砥砺前行的宗旨, 从战略的角度分析行业, 从执行的层面阅 读行业,为每一个行业的报告阅读者提供值得品鉴的研究报告。 头豹研究院本次研究于 2019 年 07 月完成。 6 报告编码19RI0489 1.2 名词解释 兼类词:有两种或两种以上词性的词。 未登录词:没有被收录在分词词表中但必须切分出来的词,包括各类专有名词(人名、 地名、企业名等) 、缩写词、新增词汇等。 义项:每一个不同概念意义事物的叙述内容。 GPU: 由大量核心组成的大规模并行计算架构, 专为同时处理多重任务而设计的芯片。 FPGA:现场可编程门阵列,是在可编程器件的基础上进一步发展的半定制电路。 ASIC:专用集成电路,是为符合特定用户需求而设计的专用人工智能芯片。 自适应:计算机根据数据特征自动调整处理方法、处理顺序、处理参数、边界条件或约 束条件, 使其与所处理数据的统计分布特征、 结构特征相适应, 以取得最佳处理效果的 过程。 AIUI: 由科大讯飞研发的人机交互新产品, 集成了双全工技术、 麦克风阵列技术、 声纹 识别技术、方言识别、语义理解技术和内容服务等。 7 报告编码19RI0489 2 中国自然语言处理行业市场综述 2.1 自然语言处理定义 自然语言处理是通过构建算法使计算机自动分析、 表征人类自然语言的学科。 自然语言 处理是计算机理解和生成自然语言的过程, 自然语言处理技术使计算机具有识别、 分析、 理 解和生成自然语言文本(包括字、词、句和篇章)的能力。自然语言处理机制涉及自然语言 理解和自然语言生成两个流程: (1) 自然语言理解: 计算机理解自然语言文本的思想和意图; (2)自然语言生成:计算机用自然语言文本表述思想和意图。 自然语言理解和分析是一个层次化过程, 从词法分析、 句法分析、 语义分析到语用语境 分析层层递进: (1) 词法分析: 分析词汇的各个词素, 从中获得语言学信息; (2) 句法分析: 分析句子和短语的结构, 识别各词语、 短语在句中的作用以及相互间的关系; (3) 语义分析: 找出词义、结构意义及词与结构结合的意义,确定语言所表达的真正含义; (4)语用语境分 析:分析语言所存在的外界环境对语言使用者所产生的影响。 2.2 自然语言处理环节 (1) 词法分析 词法分析的主要任务是词性标注和词义标注。 词性是词汇的基本属性, 词性标注是在给 定句子中判断并标注各词的词性, 而兼类词和未登录词的词性复杂难以确定, 标注兼类词与 未登录词的词性是词法分析的重要任务。 词义标注是在具体语境中明确各词的词义, 如多义 词拥有多种意义, 但在具体语境中表达的意义是可确定的。 在不同的具体语境中解决多义词 的义项问题是词义标注的重点。 (2) 句法分析 句法分析的基本任务是确定句子的语法结构或句子中词汇间的依存关系, 包括确定语言 8 报告编码19RI0489 的语法体系, 明确符合语法规则的句子的语法结构以及通过分析语言单位内成分间的依存关 系推导句子的句法结构。 (3) 语义分析 语义分析通过建立有效的模型使计算机系统能对各个语言单位 (包括词汇、 句子和篇章 等) 进行自动语义分析, 从而理解自然语言文本的真实语义。 根据理解对象的语言单位不同, 可将语义分析分为词汇级语义分析、 句子级语义分析以及篇章级语义分析。 词汇级语义分析 关注如何获取或区别单词的语义, 句子级语义分析关注整个句子所表达的语义, 篇章级语义 分析研究篇章文本的内在结构以及理解篇章文本内语言单元 (句子、 从句或段落) 间的语义 关系。 (4) 语用语境分析 语用指人对语言的具体运用, 自然语言用语与语境、 语言使用者的知识涵养、 言语行为、 想法和表达意图密切相关。 语用分析是计算机在情景语境和文化语境中研究分析语言使用者 的表达用意。 2.3 自然语言处理技术应用 随着人工智能的深入发展, 自然语言处理需求不断提升, 众多类型智能应用需要自然语 言处理技术帮助其实现智能化,如(1)文本领域的搜索引擎、信息检索、机器翻译、自动 摘要、文本分类、意见挖掘、舆情分析、自动判卷系统、信息过滤和垃圾邮件处理等应用; (2)语音领域的语音助手、智能客服、聊天机器人、自动问答、智能解说和智能远程教学 与答疑等应用均需自然语言处理技术理解或生成自然语言。 自动问答 自动问答应用涉及自然语言的词法、 句法、 语义等分析问题, 是自然语言理解与生成技 术应用的集中体现。 自动问答系统能自动回答用户提出的问题, 反馈给用户基于自然语言表 9 报告编码19RI0489 述的答案, 不再是简单的基于关键词匹配排序的文档列表, 系统在生成答案的操作中需要正 确理解用户所提出的问题, 抽取用户问题中的关键信息, 进而检索语料库或知识库, 将可匹 配的最佳答案用自然语言的形式反馈给用户,完成自动问答任务。 信息检索 信息检索是计算机自主从文档集合中查找用户所需信息的过程。 信息检索系统将信息标 引、 描述以及组织整理后存在于数据库中, 将用户输入的检索关键词与数据库中信息的标引 词匹配, 实现用户的信息检索要求。 信息检索要求计算机理解用户输入的自然语言信息, 自 动将自然语言信息与数据库中的标引信息进行比对, 以达成检索任务。 如谷歌搜索引擎可通 过理解用户输入的自然语言关键词, 反馈给用户一个检索目标页面列表, 用户可在列表中选 择能够满足自己信息需求的页面加以浏览。 因为搜索引擎无法通过简单的关键词表达体会用 户真正的查询意图,只能将所有可能满足用户需求的结果集合以列表的形式提供给用户。 情感分析 情感分析(意见挖掘) ,是计算机系统自主对文本的情感倾向(如主观/客观,积极/消 极,喜欢/讨厌等)进行挖掘和分析的过程。情感分析能帮助商家自动处理用户评论,将分 析过的评论按照排序规则进行展示, 帮助商家获得广告营销效果, 如淘宝、 天猫等电商平台、 携程、 爱彼迎等旅游住宿平台的商家在评论区可设置自动置顶反映积极情绪的用户评论, 置 后部分反映负面信息的用户评论, 达到吸引用户眼球的效果。 商家还可通过分析用户发布的 信息了解用户喜好, 实现精准营销, 如新浪微博上的零售商可根据用户发表的微博, 微话题 等内容了解用户的个人喜好,为用户定制性的推送优惠及新品信息。 2.4 中国自然语言处理产业链分析 自然语言处理产业链上游市场主体为基础资源提供商, 包括硬件供应商 (如芯片供应商、 服务器供应商和存储供应商等)和软件供应商(如云服务供应商和数据库供应商等) ;中游 10 报告编码19RI0489 市场由自然语言处理算法供应商、 自然语言处理解决方案供应商以及自然语言处理应用供应 商组成, 负责为下游需求端提供服务; 下游市场主体为各类型用户, 包括企业用户和个人用 户,企业用户涉及金融、医疗、教育、出行服务、互联网服务等领域,个人用户则为最终消 费者。 图 2-1 中国自然语言处理产业链 来源:头豹研究院编辑整理 2.4.1 产业链上游 自然语言处理产业链上游市场由基础资源供应商组成,涉及网络设备、服务器、芯片、 存储、云服务、数据库等软、硬件供应商,负责为自然语言处理技术和产品开发商提供必要 的资源支持。 (1) 芯片供应商 现阶段,行业内尚未出现专门用于自然语言处理运算的芯片,核心数据处理芯片 CPU 无法执行自然语言处理结构化运算,目前适用于自然语言处理的芯片类型有 GPU、FPGA、 ASIC 和 DSP。 GPU 解决浮点运算、数据并行计算问题优势明显,可提供高密度运算能力,解决大量 数据元素并行问题。但 GPU 芯片功耗大,依托于 X86 架构服务器而运行,成本高昂,不适 11 报告编码19RI0489 用于广泛的自然语言处理产品方案的开发, 在自然语言处理与传统行业数字化进程结合加深 的趋势下,采用 GPU 作为自然语言处理运算芯片的方案不具备成本优势,小型自然语言处 理应用项目负担不起高昂成本。 FPGA 具有可编程性, 设计者可根据需要的逻辑功能对 FPGA 电路进行快速烧录, 从而 改变其出厂设计,灵活性强。但 FPGA 的设计布线相对固定,各种型号的 FPGA 芯片逻辑 资源相对固定,选定了型号即决定了芯片的逻辑资源上限,无法随意增加运算能力。 ASIC 芯片的运算能力强、规模量产成本低,全定制设计需要设计者完成所有电路的设 计,开发周期长,时间成本高昂,主要适用于量大、对运算能力要求较高、开发周期较长的 领域。 DSP 内有控制单元、 运算单元、 各种寄存器以及存储单元, 其外围还可以连接若干存储 器和一定数量的外部设备,有软、硬件的全面功能,本身是一个微型计算机,运算能力强、 速度快、体积小,而且采用软件编程具有高度的灵活性。但目前 DSP 的性能并未通过实践 验证,也未生产出可以与 GPU 相匹敌的芯片器件,商业化应用仍在研发过程中。 为满足自然语言处理等人工智能的发展需求, 部分针对深度学习的芯片, 如TPU、 NPU、 DPU 和 BPU 等相继面世,但受场景以及性能限制,专用的人工智能芯片发展尚未成熟。目 前自然语言处理运算的最佳芯片方案仍以 GPU 为主导。 (2) 云服务供应商 云服务供应商为自然语言处理研发企业提供基础设施平台, 解决自然语言处理技术研发 厂商的数据存储、运算以及调用问题。由于性价比、部署方式等因素,自然语言处理研发企 业较多选用公有云服务。 目前, 公有云服务供应商有: 通过云服务产业链资源优势拓展至公有云服务行业的 企业,如电信运营商,网络设备制造商,IDC 厂商等,此类企业拥有较强的资金实力,加 12 报告编码19RI0489 上本身处在公有云产业链上游,基础设施方面优势明显;大型互联网企业,如亚马逊, 腾讯、阿里巴巴等,此类企业资金实力雄厚,客户认可度高,设施齐备、技术成熟,具备 发展公有云业务的有利条件;传统的软件企业,如 Microsoft、Oracle、金蝶等,此类 企业的软件产品的市场认可度高, 技术积累丰厚, 客户资源丰富, 有利于向公有云市场拓 展。除此之外,行业中存在不少新兴的创业公司,如青云、Ucloud、七牛云等。 (3) 数据 数据是人工智能发展的基石, 海量数据为训练人工智能提供原材料。 近年来, 由学术及 研究机构承担建设的公共数据集不断丰富, 数据质量不断提高, 利于人工智能企业提高智能 模型的准确度。 例如, 可运用于自然语言处理训练的数据集类型不断丰富, 维基百科语料库、 斯坦福大学问答数据集、 亚马孙美食评论集、 康奈尔电影对话语料库、 经济新闻相关文章等 语言集合相继建成,内容覆盖媒体用语、网络用语、电影用语、政府用语等众多自然语言应 用场景,有助于自然语言处理研发企业优化用于处理不同领域自然语言的模型的准确度。 2.4.2 产业链中游 自然语言处理产业链中游市场主体主要有自然语言处理算法提供商、 解决方案提供商以 及应用产品开发商。 目前中国的自然语言处理厂商较多集研发算法、 解决方案以及应用产品 功能于一身, 厂商自主研发自然语言处理算法, 形成一整套自然语言处理关键技术方案, 并 将自主研发的自然语言处理算法以及技术方案内嵌于自有应用产品体系中,典型代表有百 度、阿里巴巴和腾讯。 百度自然语言处理算法研究覆盖面广, 涉及深度问答、 阅读理解、 智能写作、 对话系统、 机器翻译、语义计算、语言分析、知识挖掘等自然语言处理细分领域。百度积累了解决问句 理解、 答案抽取、 观点分析与聚合等环节的一整套深度问答技术方案, 目前已将该套技术方 案应用于百度搜索引擎、百度手机浏览器、百度翻译、百度语音助手、小度机器人等多个产 13 报告编码19RI0489 品中。百度在自然语言篇章理解方面,形成篇章结构分析、主体分析、内容标签、情感分析 等关键技术,且该类关键技术已在百度搜索、百度信息流、糯米等产品中实现应用。 阿里巴巴开展自然语言处理技术研究主要为旗下产品服务, 如阿里巴巴在其电商平台中 构建知识图谱实现智能导购, 对电商用户进行兴趣挖掘实现精准营销, 在蚂蚁金融、 淘宝卖 家等客服场景中实现机器人提供客服服务, 在跨境电商业务中采用机器翻译服务进行商家商 品信息翻译、广告词翻译以及买家采购需求翻译等。 2.4.3 产业链下游 自然语言处理产业链下游市场主体为各类型用户, 包括企业用户和个人用户。 企业用户 主要购买行业应用,如智能客服产品、舆情分析产品、文本分类产品等,帮助企业用户提升 业务处理的智能化水平。目前的 B 端市场是自然语言处理厂商竞争的焦点,部分应用产品 (如智能客服、舆情分析产品等)尝试了商业化运作,市场反馈良好,但众多细分领域市场 发展并未成熟,市场空间仍待挖掘。 个人用户主要使用手机语音助手、 机器翻译软件、 信息检索以及互联网搜索等服务。 个 人用户使用的自然语言处理技术应用产品较多是自然语言处理厂商免费提供的, 自然语言处 理厂商普遍未在 C 端市场开发清晰的商业模式。 2.5 中国自然语言处理市场规模 现阶段, 自然语言处理技术商业化并不成熟, 部分已实现商业化应用的自然语言处理技 术相关产品(如智能客服、搜索引擎等)均无法将收益直接归因于自然语言处理技术,单独 运用自然语言处理技术的产品应用(文档分类、舆情分析等)尚未产生明显受益,因此自然 语言处理技术产生的市场营收规模仍然较小, 截至 2018 年, 自然语言处理市场营收规模仅 为 20.6 亿元人民币。但自然语言处理技术是众多人工智能设备(如智能家居设备、智能机 器人、 智能助手等) 不可或缺的核心技术, 随着智能设备数量增长以及行业智能化业务处理 14 报告编码19RI0489 水平要求的提高, 自然语言处理市场有望得到进一步拓展, 自然语言处理市场营收规模有望 在 2019-2023 年间以 48.2%的年复合增速实现快速增长。 图 2-2 中国自语言处理市场规模(按营收计) ,2014-2023 年预测 来源:头豹研究院编辑整理 15 报告编码19RI0489 3 中国自然语言处理行业驱动因素 3.1 自然语言处理要素演进,行业迎来变更式发展 数据量、运算力和算法模型是影响自然语言处理行业发展的三大要素。2012 年以来, 数据量的上涨、运算力的提升和深度学习算法的出现促进了自然语言处理行业的快速发展。 互联网、社交媒体、移动设备的普及,使产生并存储的数据量急剧增加,2020 年全球将有 超 500 亿的终端与设备联网, 产生的数据总量将大于 40 泽字节, 人均每天产生的数据量预 计达 1.5GB。 中国 2020 年的数据总量将达到全球数据总量的 20.0%, 联网设备预计从 2016 年的 8.4 亿个增长至 35.0 亿个,连接设备数的快速增长产生了大量的应用数据。数据的爆 发式增长有助于优化自然语言处理算法, 海量优质的场景数据能够帮助算法模型完成高效精 准的识别训练。 算法是计算机基于其所训练的数据集归纳出的识别逻辑, 算法模型的优化可使自然语言 处理技术更精准地理解与生成自然语言文本。 深度学习算法通过使用复杂结构设计和各种梯 度技术, 将多重非线性结构变换成多个处理层, 实现对大量数据样本的抽象计算, 拟合出一 个可处理新输入信息的函数模型, 解决数据分类或预测问题。 基于深层神经网络的深度学习 方法从根本上改变了自然语言处理技术的面貌, 改变了自然语言处理问题的定义, 变更了自 然语言处理所使用的数学工具, 深度学习的出现突破了传统浅层学习算法的局限, 重塑了自 然语言处理算法的设计思路,极大地促进自然语言处理研究的发展。 运算力方面, GPU、 FPGA, ASIC 等专用芯片的出现, 缓解了自然语言数据处理速度难 题,解决传统的 CPU 芯片算力不足问题。新兴的 GPU、FPGA、ASIC 等具有良好的并行计 算能力,芯片性能大幅优于 CPU,算力比 CPU 芯片强数十倍甚至百倍,缩短了模型运算时 间,使得自然语言运算模型的进步速度加快。 16 报告编码19RI0489 3.2 传统行业智能需求增长,带动语言处理需求上涨 金融、 医疗、 法律等传统行业的业务处理智能化水平要求上涨, 加速自然语言处理技术 在行业应用中的落地进程。例如,智能问答、资讯舆情分析、文档信息抽取、文档自动生成 等应用逐渐在金融领域的智能投研、 智能投顾、 智能客服和智能运营等场景实现应用。 在智 能投研场景中,投研人员每天需要通过多渠道搜索大量金融资讯信息以掌握金融市场动态, 而金融资讯信息极为丰富(如涉及标的公司重大新闻、公告、财务状况,金融产品信息、宏 观经济状况、政策法规变化、社交媒体评论等) ,数据量庞大,单靠投研人员从浩如烟海的 资讯库中搜索并阅读分析相关内容, 时间精力耗费严重, 工作效率难以提高, 在此种情况下, 具备资讯分类(按公司、产品、行业范围分类) 、情感分析(分析新闻、公司或产品的正负 面信息) 、自动文摘(分析文章的主要内容)及资讯个性化推荐功能的资讯舆情分析应用逐 步受到投研人士和金融机构的推崇, 资讯舆情分析应用对海量定性数据自动摘要、 归纳、 缩 简和抽取,为投研人员提供高效的信息展示,大幅缩短投研人员搜索以及摘取资讯的时间, 提高其工作效率。 在法律领域, 自然语言处理应用可帮助法律从业人员进行案例搜索、 判决预测、 法律文 书自动生成、法律文本翻译等,实现事件预处理,减少从业人员相关案件处理耗费时间。在 医疗领域, 病历的辅助录入、 医学资料的检索与分析、 辅助诊断等医疗步骤可由相关自然语 言处理应用辅助进行。现代医学资料浩如烟海,新的医学手段、方法发展迅猛,医生和专家 无法及时完全掌握所有的医学发展动态, 相关自然语言处理应用可帮助医生快速准确地寻找 各种疑难病症的最新研究进展,为医生的诊断提供及时有效的参考。 随着自然语言处理技术的深入发展, 自然语言处理应用有望与更多传统行业实现更深层 次的结合,为人类带来更多人工智能效应。 17 报告编码19RI0489 4 中国自然语言处理行业制约因素 4.1 自然语言处理存在技术难题 自然语言处理与语音识别以及图像识别不同, 自然语言处理不是单轮处理操作过程, 算 法模型对单一输入进行单轮分析无法输出结果, 自然语言的语义与上下文或前后轮对话语境 有关, 需要对输入的自然语言进行多轮分析方可得到结果。 而目前的深度学习技术, 多轮建 模发展并不成熟,与语音识别以及图像识别的单轮分析模型的成熟度无法相提并论。 此外,人类在语言交流过程中,使用的话语表达内容通常暗含常识性表示(如婴儿、小 孩以及成人代表不同年龄段人群) ,话语表达风格反应用语者的个性化特征,不同的人对相 同的内容可有不同的表达方式。现阶段的自然语言处理模型未能解决常识问题和个性化问 题, 如手机语音助手听到 “查找附近的餐馆” 指令时, 可在地图上执行查找附近餐馆的任务, 并显示附近餐馆信息,但若发号指令者说“我饿了” ,手机语音助手则不会有任何反应,因 为语音助手缺乏“饿了需要进食”的常识,而人类听了“我饿了”的话语,反应一定是“需 要进食” 。众多潜藏在人类意识中的常识,计算机并不具备且无法学习,模型开发者亦不知 道将常识知识用在机器问答和机器搜索中的效果如何, 业内尚待建立常识知识库, 测试训练 模型。 4.2 自然语言处理模型通用性不强 自然语言使用情况复杂,不同场景、不同语种、不同专业的自然用语差异较大,所需要 的自然语言处理层次不同, 基于某一领域语料库建立的自然语言处理模型不具通用性, 应用 于其他领域时处理结果明显较差, 系统性能显著下降。 自然语言模型不具通用性限制了自然 语言产品在不同应用领域的推广,大幅减缓了自然语言处理行业的发展进程。 虽然近年来研究者们针对语言模型、 语序模型、 语调模型等问题对自然语言处理进行了 18 报告编码19RI0489 众多领域自适应的调试, 但每种调试方法只能解决单方面的自适应问题, 通用性问题仍然无 法解决。 自然语言处理厂商无法用单一模型解决自然语言处理方面的所有问题, 只能根据不 同领域, 开发相应的自然语言模型, 运行相关领域的知识库, 处理特定领域的自然语言问题。 但在目前行业应用尚未普及, 产品商业模式并不清晰的情况下, 自然语言处理厂商缺乏动力 为少数应用以及各种领域开发专用算法,导致自然语言处理技术难以大范围推广落地。 4.3 机器理解自然语言技术未有突破 自然语言理解结果不准确, 限制自然语言处理应用推广。 自然语言理解与生成是机器在 人工智能、 大数据等技术指引下产生的机器行为。 机器由于难以拥有生活常识、 文化背景和 人类风俗习惯知识储备, 对于作为文化载体的自然语言, 无法结合具体的语言环境、 风俗习 惯等因素分析语言内容, 只能通过系统设定的规则机械地分析源语的语法结构, 语言逻辑无 法处理, 对于复杂句子结构或层层句式嵌套的情况, 机器的自然语言理解准确度不高。 机器 对自然语言长句的理解能力以及全方位体会语用者的真实表达意图的能力无法在短期内得 到明显提高, 与人类的语言理解能力相比, 差距仍然存在较大。 自然语言处理应用暂时只能 通过完善部分领域的知识库和语料库,优化部分领域内的自然语言处理应用的用户体验。 19 报告编码19RI0489 20 报告编码19RI0489 5 中国自然语言处理行业相关政策法规 2015 年以来,中央及各地方政府陆续出台相关政策,积极支持人工智能产业的发展, 并推进人工智能在各个细分领域的渗透和壮大。2015 年 7 月,国务院发布关于积极推进 “互联网+” 行动的指导意见 , 将 “互联网+人工智能” 列为其中 11 项重点行动之一。 2017 年 7 月,国务院印发新一代人工智能发展规划 ,将人工智能上升至国家战略,并确立了 人工智能发展三步走的目标,为中国人工智能产业发力奠定制度基础。2017 年 10 月,十 九大将“人工智能”写进党代会报告, 并提出加快建设制造强国, 发展先进制造业, 推动互 联网、大数据、人工智能和实体经济深度融合等意见。截至 2018 年,中央及各地方政府在 短短 3 年内出台了 60 余项与人工智能产业发展相关的政策, 足以看出国家对人工智能产业 化的重视。自然语言处理是人工智能的应用体现,同样受到政策的鼓励发展。 2016 年 5 月,发改委、科技部、工信部及中央网信办联合发布 “互联网”+人工智能 三年行动实施方案要求加强产学研用合作,明确支持国家工程实验室、国家工程(技术) 研究中心等创新平台建设,布局国家级创新中心,共同推动人工智能基础理论、共性技术、 应用技术研究。加快基于人工智能的计算机视听觉、生物特征识别、复杂环境识别、新型人 机交互、自然语言理解、机器翻译、智能决策控制、网络安全等应用技术研发和产业化,加 强前沿技术布局,构造未来融合创新技术基础。 2017 年 7 月,国务院发布新一代人工智能发展规划 ,明确提出建立新一代人工智 能关键共性技术体系, 重点突破自然语言的语法逻辑、 字符概念表征和深度语义分析的核心 技术, 推进人类与机器的有效沟通和自由交互, 实现多风格多语言多领域的自然语言智能理 解和自动生成。 着力研究短文本的计算与分析技术, 跨语言文本挖掘技术和面向机器认知智 能的语义理解技术,多媒体信息理解的人机对话系统。 21 报告编码19RI0489 2017 年 12 月, 工信部印发 促进新一代人工智能产业发展三年行动计划 (2018-2020 年) ,提出面向语音识别、视觉识别、自然语言处理等基础领域及工业、医疗、金融、交通 等行业领域, 支持建设高质量人工智能训练资源库、 标准测试数据集并推动共享, 鼓励建设 提供知识图谱、算法训练、产品优化等共性服务的开放性云平台。 2018 年 11 月,工信部发布新一代人工智能产业创新重点任务揭榜工作方案 ,提出 大力构建行业训练资源库,到 2020 年,基础语音、视频图像、自然语言文本对话等公共训 练数据量大幅提升,在工业、医疗、金融、交通等领域汇集一定规模的行业应用数据,用于 支持创业创新。 图 5-1 中国自然语言处理行业相关政策 来源:头豹研究院编辑整理
展开阅读全文