资源描述
1 报告编码19RI0796 头豹研究院 | 人工智能行业深度研究 400-072-5588 2019 年 中国机器翻译行业研究报告 报告摘要 TMT 团队 深度学习的引入变革了机器翻译领域,大幅提升机 器翻译质量,使机器翻译商业化成为可能。机器翻 译在深度学习作用下重获新生,随着翻译结果准确 度的不断提升,机器翻译产品有望拓展更广阔的市 场。 热点一:翻译市场发展潜力大,人工翻译供给不足,需 机器翻译补充 热点二:机器翻译产品逐渐实用化,拥有离线翻译等强大 功能 热点三:中国机器翻译厂商多兼具软、硬一体能力 机器翻译作为一项技术,最终将以产品的形式落地,实 现商业化,产品的实用性能决定其使用价值。在旅途过 程中的用户,会较为频繁地身处于没有网络覆盖或网络 信号较差的地域,如飞机、地铁以及地理位置较为偏远 的景区,单纯的在线翻译服务无法很好地满足旅游用户 在不同场景下的翻译需求,不支持离线翻译的机器翻译 产品并未带给用户良好的使用体验,因此离线翻译功能 成为各大机器翻译厂商竞争的突破口。 中国的语言翻译服务需求仍然高涨,然而现阶段的翻译 人才供给与翻译人才需求间产生较大差距,高素质的翻 译人才仍缺乏,通晓小语种的翻译人员更为稀少。在翻 译人才供给满足不了翻译需求的情况下,机器翻译能作 为较好的补充手段。人工翻译在机器翻译的辅助下,可 节省大量人工成本,提高翻译效率。 由于现阶段机器翻译软件的盈利能力较低,硬件产品是 机器翻译厂商的主要收入来源,因此多数中国的机器翻 译厂商集成了软件和硬件生产能力,成为软硬一体的机 器翻译供应商。机器翻译行业的市场规模有限,可容纳 的企业数量有限,未来行业将呈现寡头竞争局面,没有 同时具备软硬件优势的企业难以抢占市场份额。 卢佩珊 邮箱:csleadleo 分析师 行业走势图 相关热点报告 人工智能系列深度研究科 创板上市, 人工智能行业借势迎 来发展 人工智能系列深度研究沙 利文助力 2019 全球人工智能健 康峰会成功举办, 共同推动全球 人工智能技术和产业发展 人工智能系列深度研究谷 歌上线“猜画小歌”,智能技术与 人们生活越来越近 人工智能系列深度研究产 品智能化浪潮开启, 智能家居风 口已至 2 报告编码19RI0445 目录 1 方法论 . 5 1.1 方法论 . 5 1.2 名词解释 . 6 2 中国机器翻译行业市场综述 . 7 2.1 机器翻译定义与特征 . 7 2.2 机器翻译方法 . 7 2.3 中国机器翻译发展历程 . 9 2.4 中国机器翻译市场规模 . 12 2.5 中国机器翻译产业链分析 . 13 2.5.1 产业链上游 . 13 2.5.2 产业链中游 . 15 2.5.3 产业链下游 . 15 3 中国机器翻译行业驱动因素 . 16 3.1 技术进步提升翻译质量 . 16 3.2 翻译人才不足需机器补充 . 16 3.3 需求带动机器翻译发展 . 17 4 中国机器翻译行业制约因素 . 18 4.1 机器翻译表达不精准 . 18 3 报告编码19RI0445 4.2 机器翻译训练数据不足 . 19 4.3 翻译模型不具通用性 . 20 5 中国机器翻译行业相关政策法规 . 21 6 中国机器翻译行业发展趋势 . 23 6.1 翻译语种更加丰富 . 23 6.2 机器翻译逐渐实用化 . 23 6.3 产品逐渐支持离线翻译 . 24 7 中国机器翻译行业竞争格局 . 25 7.1 中国机器翻译行业竞争现状分析 . 25 7.2 中国机器翻译行业典型企业分析 . 26 7.2.1 新译信息科技(深圳)有限公司 . 26 7.2.2 北京分音塔科技有限公司 . 27 7.2.3 北京爱特曼科技有限公司 . 28 4 报告编码19RI0445 图表目录 图 2-1 中国机器翻译市场规模(按营收计),2019-2023 年预测 . 13 图 2-2 机器翻译产业链 . 13 图 5-1 中国机器翻译行业相关政策 . 22 5 报告编码19RI0445 1 方法论 1.1 方法论 头豹研究院布局中国市场, 深入研究 10 大行业, 54 个垂直行业的市场变化, 已经积累 了近 50 万行业研究样本,完成近 10,000 多个独立的研究咨询项目。 研究院依托中国活跃的经济环境, 从人工智能、 机器学习、 自然语言处理等领域着 手,研究内容覆盖整个行业的发展周期,伴随着行业中企业的创立,发展,扩张, 到企业走向上市及上市后的成熟期, 研究院的各行业研究员探索和评估行业中多变 的产业模式,企业的商业模式和运营模式,以专业的视野解读行业的沿革。 研究院融合传统与新型的研究方法, 采用自主研发的算法, 结合行业交叉的大数据, 以多元化的调研方法, 挖掘定量数据背后的逻辑, 分析定性内容背后的观点, 客观 和真实地阐述行业的现状, 前瞻性地预测行业未来的发展趋势, 在研究院的每一份 研究报告中,完整地呈现行业的过去,现在和未来。 研究院秉承匠心研究, 砥砺前行的宗旨, 从战略的角度分析行业, 从执行的层面阅 读行业,为每一个行业的报告阅读者提供值得品鉴的研究报告。 头豹研究院本次研究于 2019 年 07 完成。 6 报告编码19RI0445 1.2 名词解释 API(Application Programming Interface) :应用程序编程接口, 提供特定功能 的软件。 BLEU (Bilingual Evaluation Understudy) : 评价翻译质量的指标, 用以标注机器译 文与参考译文的相似程度。 颗粒度:指内容可显示的详细和清晰程度。颗粒度越细,表示细节越详尽,越有助于了 解事情的全貌。颗粒度越粗,表示细节越少,多为抽象概括。 指代消解:系统自主在篇章中确定显性代词指向哪个名词短语的问题。 自适应:系统根据处理数据的数据特征自动调整处理方法、处理顺序、处理参数、边界 条件或约束条件, 使其与所处理数据的统计分布特征、 结构特征相适应, 以取得最佳的 处理效果的过程。 7 报告编码19RI0445 2 中国机器翻译行业市场综述 2.1 机器翻译定义与特征 机器翻译指计算机程序将一种书写形式或声音形式的自然语言翻译成另一种书写形式 或声音形式的自然语言。 机器翻译形式包括词典翻译、 计算机辅助翻译和文本或语音的句子以及段落翻译。 词典 翻译提供基本的词语翻译服务, 将一种自然语言的字词或词组翻译成另一种自然语言的字词 或词组。 计算机辅助翻译主要利用计算机的自动记忆功能将用户翻译过的资料转换为可重复 使用的翻译内容库, 协助人工翻译, 为用户以后的翻译行为提供便利。 文本或语音的句子以 及段落翻译是计算机按照设定的规则自动将一种自然语言的文本或语音的句子及段落翻译 成另一种自然语言的文本或语音的句子及段落。 机器翻译相比人工翻译,具有以下优点: (1) 成本低 机器翻译的成本较人工翻译成本低。 机器翻译过程无需人工操作, 单次软件开发即可多 次使用,可减少专业翻译人员的雇佣,节省翻译成本。 (2) 易于把控 机器翻译按照规则执行,流程相对固定,翻译时间能较为精准地估算。 (3) 翻译速度快 机器翻译程序的运行速度比人工翻译速度快, 用户可更快速地获得翻译结果, 减少翻译 等待时间。 2.2 机器翻译方法 自机器翻译诞生以来,形成了两大类别翻译方法,包括理性主义方法和经验主义方法。 8 报告编码19RI0445 “理性主义”以人工生成语言学为基础,表现为基于规则的机器翻译; “经验主义”以数据 驱动为基础,表现为基于语料库的机器翻译。 (1) 理性主义方法 理性主义的翻译方法由语言学专家通过编撰规则的方式, 将不同自然语言间的转换规律 生成算法, 计算机程序依据算法规则进行语言翻译。 理性主义方法高度依赖专家, 要求专家 具备一定的语言学知识和翻译知识, 深刻了解源语言和目标语言, 还要求专家熟练掌握计算 机的相关操作技能, 而同时具备翻译知识、 语言学知识和计算机知识的综合人才较少, 熟悉 小语种的人才更是匮乏,导致理性主义的机器翻译方法发展缓慢。 基于规则的机器翻译方法认为任何一种语言里的无限的句子均可由有限的规则推导, 能 够充分利用语言学家总结的语言规律为计算机翻译程序提供指引。基于规则的翻译方法直 观, 系统根据人为设定的不同颗粒度的规则进行翻译操作。 大颗粒度的规则概括能力强, 具 有较好的系统适应性, 不依赖于具体的机器训练语料。 细颗粒度的规则具有精细的描述能力, 可处理结构复杂, 语义深刻的翻译内容。 但基于规则的机器翻译方法主观因素较重, 规则的 质量和效果依赖于语言学家的知识和经验, 受专家自身因素影响过大。 规则一般仅从规范文 本的语言现象中总结, 覆盖性较差, 对于弱规范或不规范的口语语言现象和网络用语处理能 力较差。 人为总结的规则不够客观, 新规则与已有规则易发兼容性问题。 规则获取的人工成 本较高, 规则库的建立和调试过程漫长, 维护大规模规则比较困难, 导致基于规则的理性主 义机器翻译方法难以处理大规模真实文本的翻译工作。 (2) 经验主义方法 20 世纪 90 年代初,大量的语料库和机器学习方法开始兴起,机器翻译方法逐渐由理 性主义转向经验主义。 经验主义方法使用语料库作为翻译知识的来源, 通过语料库训练让系 统自主学习并产生翻译规则, 无需人工编写规则。 但经验主义方法严重依赖语料库, 若语料 9 报告编码19RI0445 库数据不全面, 系统总结的机器翻译规则亦不全面, 通过语料库训练的方法不易获得大颗粒 度的具有高概括性的翻译规则。 基于语料库的经验主义机器翻译方法包括基于实例的翻译方法和基于统计模型的翻译 方法。 基于实例的翻译方法从语料库中检索出与源语言文本相似的实例 (通常句子且可能 有多个) ,并对实例对应的译文进行适当的替换、删除和插入等一系列变形操作,得到最终 的目标译文。 基于实例的机器翻译方法无需对句子进行复杂的语言分析, 可直接利用已有的 翻译实例库进行译文片段重组, 但此情况通常要求实例库中存在与待翻译内容高度相似的实 例。 目前, 业内普遍缺少大规模的双语对齐语料库, 因此基于实例的机器翻译系统匹配率并 不高。 基于统计模型的翻译方法从大量的语料库中获取翻译知识, 为翻译内容建立统计模 型, 把翻译问题理解为搜索问题, 认为任何一个目的语句子都有可能是任何一个源语的译文, 机器翻译的任务即是从语料库中找到最大概率可匹配源语的译文句子。 基于统计模型的机器 翻译中的原规则结构复杂, 对语料库的依赖性强, 即使现在可用大规模语料库实现机器自主 学习训练,但语料库数据仍显严重不足。 基于规则的理性主义翻译方法和基于语料库的经验主义方法各有优劣, 目前尚未有任何 一种方法能实现完美的机器翻译。 近年来, 机器翻译研究趋于将基于规则的翻译方法和基于 语料库的翻译方法相结合,兼容并包,博采众长。 2.3 中国机器翻译发展历程 中国的机器翻译研究始于 20 世纪 50 年代,中科院语言研究所与电脑科技研究所合作 开展中俄语言机器翻译研究, 成功实现了九种复杂句式的中俄语言互译。 但受国际外交局势 以及计算机发展水平的限制, 当时的机器翻译研究尤其是汉英机器翻译研究并未得到深入发 展,甚至陷入停滞。直到 20 世纪 80 年代末,中国的机器翻译研究再度复苏,随着计算机 技术的发展和国际交流需求的增长, 机器翻译的使用需求日渐提升, 中国多个科研院校与国 10 报告编码19RI0445 际研究机构开展合作,相继推出“863 智能英-汉翻译系统” 、 “译星” 、 “通译”等机器翻译 软件,迅速带动机器翻译进入公众视线。 21 世纪以来,深度学习算法和神经网络架构成为机器翻译领域的翻译范式,在诸多语 种及应用场景中的翻译质量超越了传统机器翻译技术的翻译质量, 受到各大机器翻译研究商 的追捧。百度的基于神经网络的机器翻译,在翻译知识获取、翻译模型、多语种翻译技术等 方面有重大突破, 将深度学习算法应用于多种主流翻译模型中, 翻译质量有明显提升, 翻译 结果在国际上获得广泛认可。腾讯的机器翻译结合神经网络机器翻译和统计机器翻译的优 点,对源语言文本进行深入理解,使翻译效果更为准确,同时支持语音翻译、图片翻译、语 种识别等多种场景, 大幅降低传统文本翻译的读写成本。 科大讯飞基于深度神经网络算法优 化机器翻译,并于 2014 年在国际口语翻译大赛 IWLST 上获得中英以及英中翻译的双项冠 军。中国的机器翻译行业发展正逐步深入发展,未来的机器翻译应用将更具深度与广度。 11 报告编码19RI0445 12 报告编码19RI0445 2.4 中国机器翻译市场规模 机器翻译涉及软件(如在线翻译软件、计算机辅助翻译软件和翻译 API、SDK 等)和硬 件(翻译机、蓝牙翻译耳机和翻译手机等)产品。目前机器翻译软件产品在中国市场上尚未 产生明显的收入, 众多翻译软件免费供用户使用, 部分翻译 API、 SDK 在特定情况下向用户 收取少量的费用(如百度通用翻译 API 高级版和尊享版在翻译字符超 200 万字的情况下, 按 49 元/百万字符向用户收取相应的使用费) ,但此类软件收入占比甚少。 中国机器翻译行业的营收主要由机器翻译硬件产品产生, 目前主要有翻译机、 蓝牙翻译 耳机以及翻译手机三种硬件产品。 在机器翻译硬件产品中, 中国的蓝牙翻译耳机以及翻译手 机并不普及,产生的营收有限,而翻译机产生的营收额占市场营收总额的比例超 85%。翻 译机产品成为各大机器翻译厂商抢占市场红利的最佳消费级电子硬件产品, 如科大讯飞、 腾 讯、搜狗、网易等厂商纷纷推出智能翻译机产品,当前的智能翻译机产品功能不断增强,支 持多种语言甚至是方言的即时互译以及拍摄翻译等。 随着智能翻译机功能的增强以及用户体 验提升,智能翻译机的应用有望更进一步普及,带动机器翻译市场规模的增长。2018 年, 中国翻译机销售量近 100 万台,产生的营收额为 15.2 亿元人民币,预计 2023 年,翻译机 的销量将超 2,000 万台, 届时将带动中国机器翻译市场规模大幅提升, 实现中国机器翻译市 场 2019-2023 年 81.9%的年均复合增长。 13 报告编码19RI0445 图 2-1 中国机器翻译市场规模(按营收计),2014-2023 年预测 来源:头豹研究院编辑整理 2.5 中国机器翻译产业链分析 机器翻译产业链由上游的人工智能芯片供应商、 机器翻译算法供应商和数据供应商, 中 游的机器翻译软件供应商和硬件供应商以及下游的 B 端、C 端和 G 端消费者组成。 图 2-2 机器翻译产业链 来源:头豹研究院编辑整理 2.5.1 产业链上游 机器翻译产业链上游由人工智能芯片供应商、 机器翻译算法供应商以及数据供应商组成。 现阶段, 中国机器翻译行业并未诞生专门的数据供应商, 数据并不对外出售, 多数机器翻译 14 报告编码19RI0445 算法供应商以及数据供应商与机器翻译软件供应商集成一体, 厂商通过自主搜集到的数据运 用于训练自主研发的机器翻译算法, 并将算法内嵌于自主研发的机器翻译软件中。 部分缺乏 机器翻译算法能力的厂商,通过调用百度的机器翻译 API 来提供机器翻译软件和硬件生产 基础。 人工智能芯片涉及 GPU、FPGA 和 ASIC,目前的人工智能芯片市场主要由非定制化芯 片 GPU 和 FPGA 主导,但非定制化芯片在计算性能、功耗、成本等方面存在明显不足,市 场需求必将推动人工智能芯片从通用向专用发展,由通用的 GPU,半通用的 FPGA,向专 用化的 ASIC 发展。 通用型 CPU 与 GPU 在集成电路产业中最早发展成熟并被广泛应用,但在人工智能时 代,CPU 的串行逻辑架构无法适应大数据量运算,单独的 CPU 解决方案不再出现于人工智 能应用中。GPU 天然的并行逻辑架构可以轻易地适应大数据量运算环境,因此被最早应用 于人工智能市场。但 GPU 高度缺乏灵活性,难以为各种特定的人工智能场景定制性能与算 力。 半通用的 FPGA 可与硬件结合紧密, 在编程、 底层配置和构建层面具有较高灵活度, 在 专用芯片发展尚未成熟的阶段能较好缓解 GPU 在人工智能领域中的发展不适,赋予特定人 工智能应用场景所需的芯片可塑性。 短期内, 半通用 FPGA 的市场前景可观, 市场潜力有望 被挖掘。如深鉴科技的“深度学习处理单元”芯片(DPU)基于 FPGA 平台,利用指令集与 编译器,实现了以 ASIC 级别的功耗提供优于 GPU 的性能。微软也把重心放在 FPGA 人工 智能芯片上, 推出了基于 FPGA 的视觉芯片 A-eye, 可应用于无人机、 机器人等多种人工智 能产品。由于 FPGA 的单片成本较 ASIC 低,在芯片需求未成规模、深度学习算法未稳定的 情况下,运用 FPGA 芯片来实现半定制化的人工智能芯片成为了众多企业的最佳选择。 15 报告编码19RI0445 2.5.2 产业链中游 机器翻译产业链中游包括机器翻译软件供应商和硬件供应商。 由于现阶段机器翻译软件 的盈利能力较低, 硬件产品是机器翻译厂商的主要收入来源, 因此多数中国的机器翻译厂商 集成了软件和硬件生产能力,成为软硬一体的机器翻译供应商,如百度翻译包括百度翻译 APP 和百度翻译机; 科大讯飞推出讯飞翻译 APP 和晓译翻译; 搜狗推出搜狗翻译 APP 和搜 狗翻译机、搜狗旅行翻译宝等。 2.5.3 产业链下游 机器翻译产业链下游市场主体为 B 端、G 端和 C 端消费者,其中 B 端消费者主要为行 业应用, 如金融行业的机器翻译应用、 医疗行业的机器翻译应用和文学领域的机器翻译应用 等, 但由于行业应用对机器翻译结果的准确度要求高, 而目前的机器翻译水平尚未能满足行 业应用的需求,因此 B 端的行业应用难以普及。 G 端消费者主要为政府机构, 政府机构将机器翻译产品多应用于跨国交流场景, 如 2019 年博鳌亚洲论坛启用讯飞人工智能翻译机,2018 年博鳌亚洲论坛将腾讯同传作为官方指定 的独家人工智能同声传译合作伙伴,但会议论坛上呈现的机器翻译结果不佳。 C 端消费者为个人用户,可应用于个人境外旅游、个人商务交流合作、个人语言学习等 场景。现阶段,C 端市场是各大机器翻译厂商的主要发力点,消费级机器翻译硬件产品是机 器翻译厂商的主要盈利来源。 16 报告编码19RI0445 3 中国机器翻译行业驱动因素 3.1 技术进步提升翻译质量 深度学习的引入变革了机器翻译领域, 大幅提升机器翻译质量, 使机器翻译商业化成为 可能。 传统机器翻译模型 (基于规则的机器翻译方法和基于统计模型的机器翻译方法) 需要 人工设计特征, 使机器根据人工标记特征进行翻译操作, 而端到端神经机器翻译是一种全新 的机器翻译方法, 通过非线性的神经网络直接将源语言文本映射成目标语言文本, 直接完成 自然语言间的转换,不再需要由人工设计特征以及词语对齐、短语切分、句法树等隐结构。 端到端神经网络机器翻译技术相较于传统机器翻译技术是一种革命性的改变, 将机器翻译带 到一个全新的纪元, 大幅提升机器翻译质量。 如谷歌上线的神经网络机器翻译系统产出的译 文接近自然语言, 用词更为准确, 语序更为自然合理。 曾有研究以维基百科和新闻作为语料, 对谷歌的神经网络机器翻译系统进行译文质量测试,结果显示谷歌翻译在多个样本的翻译 中,将错误率降低了 55%-80%。百度推出的基于注意力机制的神经网络机器翻译的汉英翻 译结果在 BLUE 指标上提升了 4.9 点。 科大讯飞的神经网络机器翻译系统的中译英翻译结果 的 BLUE 值得分达到 0.43(BLUE 值达到 0.2-0.4 分较为适合人的理解和阅读) 。 翻译准确度是机器翻译产品的核心竞争要素, 过往的机器翻译的结果多受人诟病, 由于 翻译不准确而闹出各种争议, 导致机器翻译产品的商业应用一直受限。 只有在机器翻译准确 度有所保证的前提下, 机器翻译的商业化才能提上日程。 深度学习的深入发展使机器翻译重 获新生,随着翻译结果的不断提升,机器翻译产品有望拓展更广阔的市场。 3.2 翻译人才不足需机器补充 根据中国翻译协会发布的2018 中国语言服务行业发展报告数据,语言服务需求方 对笔译和口译服务的需求较大,对英语、日语、法语、德语、俄语、西班牙语、葡萄牙语、 17 报告编码19RI0445 阿拉伯语、朝鲜语等语种的翻译服务需求较高,截至 2018 年 6 月,65.8%的语言服务需求 方需要寻求笔译服务, 62.8%的语言服务需求方需要口译服务, 其中语言需求方对英语翻译 需求比例达 96.3%, 对日语、 法语和德语的翻译服务需求分别为 58.4%、 45.0%和 40.5%, 而对其他语言的翻译需求亦有 2.6%。 中国的语言翻译服务需求仍然高涨, 然现阶段的翻译人才供给与翻译人才需求间产生较 大差距, 高素质的翻译人才仍缺乏, 通晓小语种的翻译人员更为稀少。 翻译人才培养体系不 够完善, 多数院校的翻译教师没有翻译行业的从业经历, 对教学内容是否属于翻译素质的培 养无从判别, 课堂教学内容多为单纯地迁移书本知识, 仅对外语学科解决语言问题进行延伸, 学生并未接受到真正意义上的职业型翻译教学培养,真正的翻译人才培养仍需时日。 在翻译人才供给满足不了翻译需求的情况下, 机器翻译能作为较好的补充手段。 人工翻 译在机器翻译的辅助下, 可节省大量人工成本, 提高翻译效率, 如美国国防预先研究计划局 (DARPA) 在多语种政治、 经济、 军事等领域情报信息日益激增的情况下, 积极投入机器翻 译研究以缓解单靠人工翻译与阅读带来的不足,提高翻译处理效率。 3.3 需求带动机器翻译发展 境外旅游及跨国商务场景的翻译需求催生机器翻译硬件产品。 境外旅游和跨国商贸场景 对语言翻译服务存在刚需, 便携式的机器翻译产品能较好地满足此类场景的翻译需求。 翻译 硬件产品主要应用于境外旅游、国际企业交流、商务会谈、外语教育学习、国际贸易、文学 翻译、 国际会展交流会等场景, 其中境外旅游是翻译机发展潜力最大的市场。 随着中国居民 消费水平提升, 传统的固定路线跟团旅游方式无法满足消费者的旅游需求, 个性化定制的深 度境外游成为年轻一代消费者追求的旅游新方式。 个性化定制旅游方式下, 用户依据自主制 定的路线完成旅程, 期间没有传统跟团游的导游, 旅途中需要用户自主解决一切问题, 克服 语言沟通难题,而机器翻译硬件产品成为境外旅游用户快速解决语言沟通难题的优质选择。 18 报告编码19RI0445 随着中国境外旅游人数增长,机器翻译硬件产品的市场空间有望提升。2018 年中国出境旅 游人数达 14,972 万人次,同比增长 14.7%,机器翻译产品在境外旅游场景应用中消费潜力 巨大。 4 中国机器翻译行业制约因素 4.1 机器翻译表达不精准 机器翻译结果不准确, 限制机器翻译应用推广, 制约机器翻译行业发展。 机器翻译是一 种在人工智能、 大数据等技术指引下的机器行为, 由于机器难以拥有生活常识、 文化背景和 人类风俗习惯知识储备,对于作为文化载体的语言,只能通过系统设定的规则机械地理解, 因此机器翻译凸显自动化、机械化以及无意识等特征,翻译过程难以结合具体的语言环境、 风俗习惯等因素分析源语, 仅能够机械地分析源语的语法结构, 在复杂句子结构或层层句式 嵌套的情况下, 则将复杂句子机械地拆解为多个子句单独翻译, 并将子句译文根据源语排列 组合获得最终翻译结果,容易导致翻译结果缺乏逻辑关联、生硬乏味。 19 报告编码19RI0445 机器翻译在篇章翻译及文学翻译领域呈现的结果更是让读者难以理解。 机器翻译无法理 解文学作品所处时代的经济、 宗教等人文因素以及体会字里行间的情感流露, 无法使译文表 露同样的情感,不具备人工翻译“信、雅、达”的优势。在篇章翻译中,机器翻译无法处理 指代消解问题和主语省略等现象, 无法在译文中将源文所指代的内容自动恰当地补全, 导致 篇章翻译内容逻辑不通, 句子结构不全, 语法问题通篇存在。 当前的人工智能技术在自然语 言理解方面尚未有质的突破, 机器翻译的应用领域仍然较为狭窄 (较多运用于对翻译质量要 求不高的个人休闲消费领域) ,机器翻译质量仍需较长时间提升。 4.2 机器翻译训练数据不足 现阶段, 机器翻译以经验主义方法为主导, 利用语料库数据资源驱动机器翻译质量的提 升, 但可运用于机器翻译训练的语料库数据资源仍然较为缺乏, 导致机器翻译质量难有大的 提升。 基于语料库的机器翻译是一种数据驱动的方法, 翻译结果的准确度主要受语料库数据 的影响。实现不同语言间的互译,需要使用不同语言的语料库训练机器,而在实际应用中, 众多语言缺少语料库积累, 语言互译资源更是稀缺, 如多数中国的少数民族语言缺少电子文 本和知识库, 少数民族语言间及少数民族语言与汉语间的互译文本资料甚少, 造成机器缺乏 训练数据,无法自主学习总结及修正该类语言间的翻译规则,导致翻译结果不佳。 目前机器翻译获取的翻译数据多来自于政府文档, 如联合国官方文件配备了多语种版本, 语料资源获取方便,但政府文档资源覆盖面狭窄,多为官方领域语料,缺少体育、娱乐等领 域的语料数据。此外,政府文档全是正式化语体材料,缺少口语及网络用语语料,而口语及 网络用语是弱规范甚至是不规范的语言, 与官方用语具有明显区别, 单纯的官方用语语料库 训练的机器翻译规则难以适应口语及网络用语的翻译场景, 难以使机器自主训练学会翻译生 活化用语。 而实际的语言交流场景中, 口语及网络用语使用更为频繁, 机器翻译的应用更应 覆盖口语及网络用语场景。 仅面向规范文本提供的机器翻译服务难以适应市场需求, 提高非 20 报告编码19RI0445 规范文本的处理能力和翻译效果,仍是机器翻译行业面临的难题。 4.3 翻译模型不具通用性 现阶段的机器翻译系统具有明显的缺陷, 基于某一领域语料库建立的机器翻译模型不具 有通用性, 应用于其他领域时翻译结果明显较差, 系统性能显著下降。 机器翻译模型不具通 用性限制了机器翻译产品在不同应用领域的推广, 大幅减缓了机器翻译行业的发展进程, 机 器翻译的行业应用至今仍未有明显发展。 虽然近年来研究者们针对翻译模型、 语言模型、 短 语调序模型和不同领域新词翻译等问题对系统进行了众多领域自适应的调试, 但每种调试方 法只能解决单方面的自适应问题。 机器翻译行业内仍缺少解决领域自适应问题统一的有效框 架,距离系统全方位适应不同领域的翻译场景仍较为遥远。 21 报告编码19RI0445 5 中国机器翻译行业相关政策法规 2015 年以来,中央及各地方政府陆续出台相关政策,积极支持人工智能产业的发展, 并推进人工智能在各个细分领域的渗透和壮大。2015 年 7 月,国务院发布关于积极推进 “互联网+” 行动的指导意见 , 将 “互联网+人工智能” 列为其中 11 项重点行动之一。 2017 年 7 月,国务院印发新一代人工智能发展规划 ,将人工智能上升至国家战略,并确立了 人工智能发展三步走的目标,为中国人工智能产业发力奠定制度基础。2017 年 10 月,十 九大将“人工智能”写进党代会报告, 并提出加快建设制造强国, 发展先进制造业, 推动互 联网、大数据、人工智能和实体经济深度融合等意见。截至 2018 年,中央及各地方政府在 短短 3 年内出台了 60 余项与人工智能产业发展相关的政策, 足以看出国家对人工智能产业 化的重视。机器翻译是人工智能的应用体现,同样受到政策的鼓励发展。 2016 年 5 月,发改委、科技部、工信部及中央网信办联合发布 “互联网”+人工智能 三年行动实施方案要求加强产学研用合作,明确支持国家工程实验室、国家工程(技术) 研究中心等创新平台建设,布局国家级创新中心,共同推动人工智能基础理论、共性技术、 应用技术研究。加快基于人工智能的计算机视听觉、生物特征识别、复杂环境识别、新型人 机
展开阅读全文