2016中文信息处理报告.pdf

返回 相关 举报
2016中文信息处理报告.pdf_第1页
第1页 / 共153页
2016中文信息处理报告.pdf_第2页
第2页 / 共153页
2016中文信息处理报告.pdf_第3页
第3页 / 共153页
2016中文信息处理报告.pdf_第4页
第4页 / 共153页
2016中文信息处理报告.pdf_第5页
第5页 / 共153页
点击查看更多>>
资源描述
1 前言 当前已经进入以互联网、大数据和深度学习为标志的海量信息时代,互联网和机器学习技术的快速发展对中文信息处理提出了许多新的挑战。 中文信息处理发展报告( 2016)是中国中文信息学会召集专家对本领域学科方向和前沿技术的一次梳理,我们的定位是 深度科普 ,旨在向政府、企业、媒体等对中文信息处理感兴趣的人士简要介绍相关领域的基本概念和应用方向,向高校、科研院所和高技术企业中从事相关工作的专业人士介绍相关领域的前沿技术和发展趋势。 编撰中文信息处理发展报告的想法来源于中国中文信息学会主办的“中文信息处理战略研讨会”。 2006 年 11 月 20 日召开的中国中文信息学会第六届理事会第一次常务理事会上,常务理事们建议择期召开“中文信息处理战略研讨会” ,共同探讨中文信息处理未来的研究方向和发展战略。中国中文信息学会于 2007 年 4 月 20日在广西南宁召开“第一届中文信息处理战略研讨会”,之后于 2012、 2014、 2016 年分别于江西婺源、贵州贵阳、海南海口连续召开了“中文信息处理战略研讨会”,在与会各位专家的热情支持、积极参与、认真准备和共同努力下,这几次会议都取得了圆满成功,促进了本领域前沿技术的创新与发展 ! 在这几次战略研讨会上 与会专家学者从学科发展趋势、国内外研究热点、未来重要应用、产业融合与发展等多个角度,给出了各自独到的见解和思考,会上也就我国中文信息处理未来的发展机遇和挑战进行了热烈的研讨 。 尽管每次会后我们都会将专家的报告在学会网站分享以飨读者,但是因为比较零散,无法形成系统的观点。在今年的战略研讨会上,我们提出了发布中文信息处理发展报告的工作计划,由学会学术工作委员会主任马少平教授负责。 2016 年 5 月 12 日在中科院软件所召开了工作会议(马少平、孙乐、宗成庆、赵军、张敏、张家俊、韩先培、刘康等),经讨论确定报告分为 基础研究和应用研究及各自具体的研究方向,也确定了撰写的模板,主要包括:方向定义及研究目标、关键科学问题和研究内容、研究方法及国内外现状、总结及展望等 ,宗成庆研究员提供了机器翻译方向的模板供大家编撰时参考。 会后我们邀请各个方向的著名专家撰写了各个方向的报告: 基础研究: 词法与句法分析:李正华、陈文亮、张民(苏州大学) 语义分析:周国栋 、李军辉 (苏州大学) 篇章分析:王厚峰、李素建( 北京大学 ) 2 语言认知模型: 王少楠,宗成庆 ( 中科院自动化研究所 ) 语言表示与深度学习: 黄萱菁、邱锡鹏( 复旦大学) 知识图谱与计算:李涓子、候磊 (清华大学) 应用研究: 文本分类与聚类: 涂存超,刘知远 (清华大学) 信息抽取:孙乐 、韩先培 ( 中国科学院软件研究所 ) 情感分析:黄民烈(清华大学) 自动文摘:万小军、 姚金戈(北京大学) 信息检索:刘奕群、马少平(清华大学) 信息推荐与过滤:王斌( 中科院信工 所 )、 鲁骁(国家计算机网络应急中心) 自动问答:赵军、 刘康,何世柱 ( 中科院自动化研究所 ) 机器翻译: 张家俊、 宗成庆( 中科院自动化研究所 ) 社会媒体处理:刘挺、 丁效 (哈尔滨工业大学) 语音技术:说话人识别 郑方(清华大学)、 王仁宇( 江 苏师 范大学 ),语音合成 陶建华( 中科院自 动 化研究所 ),语音识别 王东(清华大学) 文字识别:刘成林( 中科院自动化研究所 ) 多模态信息处理:陈晓鸥(北京大学) 医疗健康信息处理:陈清财、 汤步洲 ( 哈尔滨工业大学 ) 少数民族语言信息处理: 吾守尔 斯拉木 (新疆大学) 、那顺乌日图 (内蒙古大学) 、海银花 (内蒙古大学)等 最后由张敏(清华大学)、韩先培(中国科学院软件研究所)、张家俊( 中科院自动化研究所 )、刘康(中国科学院自动化研究所)等对初稿反馈意见,校对统一成文。 由于时间仓促,难免有疏漏,甚至错误的地方, 供有志于中文信息处理事业的同仁和青年学者 们 参考,进行更广泛的讨论和思考,期待在我们的共同努力下再创中文信息处理事业新的辉煌! 中国中文信息学会 2016 年 12 月 3 目录 第一章 词法 与 句法分析 . 4 第二章 语义分析 . 14 第三章 语篇分析 . 21 第四章 语言认知模型 . 26 第五章 语言表示与深度学习 . 31 第六章 知识图谱 . 36 第七章 文本分类与聚类 . 42 第八章 信息抽取 . 49 第九章 情感分析 . 55 第十章 自动文摘 . 61 第十一章 信息检索 . 67 第十二章 信息推荐与过滤 . 76 第十三章 自动问答 . 83 第十四章 机器翻译 . 90 第十五章 社会媒体处理 . 97 第十六章 语音技术 . 106 第十七章 文字识别 . 123 第十八章 多模态信息处理 . 129 第十九章 医疗健康信息处理 . 139 第二十章 少数民族语言文字信息处理 . 146 4 第一章 词法和句法分析 研究进展、现状及趋势 1.任务定义、目标和研究意义 自然语言处理中的自然语言句子级分析技术,可以大致分为词法分析、句法分析、语义分析三个层面。 第一层面的词法分析( lexical analysis)包括汉语分词和词性标注两部分。和大部分西方语言不同,汉语书面语词语之间没有明显的空格标记,文本中的句子以字串的形式出现。因此汉语自然语言处理的首要工作就是要将输入的字串切分为单独的词语,然后在此基础上进行其他更高级的分析,这一步骤称为分词( word segmentation 或 tokenization)。除了分词,词性标注也通常认为是词法分析的一部分。给定一个切好词的句子,词性标注的目的是为每一个词赋予一个类别,这个类别称为词性标记( part-of-speech tag),比如,名词( noun)、动词( verb)、形容词( adjective)等。一般来说,属于相同词性的词,在句法中承担类似的角色。 第二个层面的句法分析( syntactic parsing)是对输入的文本句子进行分析以得到句子的句法结构的处理过程。对句法结构进行分析,一方面是语言理解的自身需求,句法分析是语言理解的重要一环,另一方面也为其它自然语言处理任务提供支持。例如句法驱动的统计机器翻译需要对源语言或目标语言(或者同时两种语言)进行句法分析;语义分析通常以句法分析的输出结果作为输入以便获得更多的指示信息。 根据句法结构的表示 形式不同,最常见的句法分析任务可以分为以下三种: (1) 短语结构句法分析( phrase-structure syntactic parsing),该任务也被称作成分句法分析( constituent syntactic parsing),作用是识别出句子中的短语结构以及短语之间的层次句法关系; (2) 依存句法分析( dependency syntactic parsing),作用是识别句子中词汇与词汇之间的相互依存关系; (3) 深层文法句法分析,即利用深层文法,例如词汇化树邻接文法( Lexicalized Tree Adjoining Grammar, LTAG)、词汇功能文法( Lexical Functional Grammar, LFG)、组合范畴文法( Combinatory Categorial Grammar, CCG)等,对句子进行深层的句法以及语义分析。 上述几种句法分析任务比较而言,依存句法分析属于浅层句法分析。其实现过程相对简单,比较适合在多语言环境下的应用,但是依存句法分析所能提供的信息也相对较少。深层文法句法分析可以提供丰富的句法和语义信息,但是采用的文法相对复杂,分析器的运行复杂度也较高,这使得深 层句法分析当前不适合处理大规模数据。短语结构句法分析介于依存句法分析和深层文法句法分析之间。 自然语言处理的第三个层面是语义分析( semantic parsing)。语义分析的最终目的是理解句子表达的真实语义。但是,语义应该采用什么表示形式一直困扰着研究者们,至今这个问题也没有一个统一的答案。语义角色标注( semantic role labeling)是目前比较成熟的浅层语义分析技术。基于逻辑表达的语义分析也得到学术界的长期关注。 出于机器学习模型复杂度、效率的考虑,自然语言处理系统通常采用级联的方式,即分词、词性标注、句法分析、语义分析分别训练模型。实际使用时,给定输入句子,逐一使用各个模块进行分析,最终得到所有结果。近年来,随着研究工作的深入,研究者们提出了很多有效的联合模型,将多个任务联合学习和解码,如分词词性联合、词性句法联合、分词词性句法联合、句法语义联合等。联合模型通常都可以显著提高分析质量,原因在于:联合模型可以让相互关联的多个任务互相帮助,同时对于任何单任务而言,人工标注的信息也更多了。然而,联合模型的复杂度更高,速度 也更慢。 本章集中讨论第一和第二层面的词法和句法分析技术。 5 2.研究内容和关键科学问题 词法分析是将输入句子从 字 序列转化为 词 和词性序列 , 句法分析将输入句子从 词 序列形式转化为树状结构,从而刻画句子的词法和句法结构 。目前,学术界和产业界主要研究数据驱动的分析方法,即在人工标注的分词、词性语料和树库上自动训练构建词法和句法分析系统。数据驱动的方法主要优势在于给定训练数据,不需要太多的人工干预,就能得到最终的系统。但是给定一个句子,可以产生数量众多符合词法和句法的分析结果。如何从中找到正确的分析结果是最主要的研究内 容。 词法分析主要面临如下几个问题: 词的定义和生词问题:什么是词?词的定义标准是什么?这在语言学界和计算语言学界争论多年,到至今还没有一个统一的标准。由于汉语构词非常灵活,特别是在互联网时代,外来语、新词、热词不断出现,事实上,也不存在一个绝对统一的构词标准和分词规范。汉语的词是开放、动态的,不可能用一部静态词典包含所有的词。所以,用来描述生词和构词法的模型是非常重要的。 分词歧义问题:分词歧义是指在一个句子中,一个字串可以有不同的切分方法。例如,“乒乓球拍卖完了”,可以切分为“乒乓 /球拍 /卖 /完 /了”, 也可以切分为“乒乓球 /拍卖 /完 /了”。即使给定词的定义标准和一部覆盖面很广的词典,分词歧义问题也非常难解决,需要上下文语义知识的帮助才能解决。分词歧义进一步和生词问题交叉在一起,分词问题变得就更加复杂。 词性定义和词性兼类问题 :词性类别远比词的个数要小,但词性的定义也不完全存在一个统一的信息处理用的国内和国际标准。词性兼类问题是词性标注面临的主要问题,需要更高层次的上下文信息来解决。 句法分析主要面临如下四个关键问题: 模型定义问题:如何为各候选句法树打分。由于符合语法规则的句法树数目非常多,因此要对每棵树进行评估计算它的分值。分值高低体现了该树是正确树的可能性大小。本项内容是 研究如何 将 句法 树的分值分解为一些子结构的分值。 特征表示问题:如何表示句法树。在模型定义中,句法树已经被分解成一些子结构。这些子结构如何被机器学习模型所识别,也就是特征表示问题。本项内容是研究 采用哪些特征来表示每一部分子结构。 解码问题:如何寻找概率(或分值)最高的句法树。在给定所有子树的分值后,通过组合可以得到数目众多的不同分值树,搜索空间较大,无 法通过简单比较得到分值最高的结果。本项内容是研究 如何设计有效算法高效地搜索到分值最高的 句法 树。 训练算法问题:如何训练获取特征权重。在句法分析中通常有数以千万计的特征,这些特征的重要性存在差异,因此需要去学习它们的重要程度,即特征权重。本项内容主要是研究如何使用机器学习模型来有效的学习特征权重。 3.技术方法和研究现状 本节分别介绍分词、词性标注和句法分析所用的主流技术方法和研究现状。 3.1 分词 汉语分词任务的目标是将输入的句子从汉字序列切分为词序列。分词是汉语处理的重要基础。在过去三十多年里,经过研究 者们的不断摸索,汉语分词研究取得了全方位的发展。尤其是大规模人工标注数据的产生和基于人工标注数据的统计方法取代了基于词表和规则的方法,分词准确率取得了显著提升,分词模型也变得更加简单有效。 2003 年国际中文分词公开评测任务 开展 以来,中文分词也吸引了更多研究者的关注。 6 3.1.1 主要分词方法 基于词典的最大匹配分词方法 : 1986 年,刘源、梁南元首次将最大匹配方法应用到中文分词任务。根据方向不同,最大匹配方法又可以分为前向和后向最大匹配方法两种。最大匹配方法是最有代表性的一种基于词典和规则的方法,其缺点是严重 依赖词典,无法很好地处理分词歧义和未登录词。然而,由于这种方法简单、速度快、且分词效果基本可以满足需求,因此在工业界仍然很受欢迎。 全切分路径选择方法 :其思想是所有可能的切分表示为一个有向无环图,每一个可能的切分词语作为图中的一个节点。有向图中任何一个从起点到终点的路径构成一个句子的词语切分,路径数目随着句子的长度指数增长。这种方法的目标是从指数级搜索空间中求解出一条最优路径。张华平、刘群 (2002)最初根据 n 元语言模型及其他大规模统计信息等对每个节点和边赋予一定的权重。而 Andrew (2006)利用半马尔科夫条件随机场,基于人工标注数据的统计方法,对每个节点进行打分。 基于字序列标注的方法 :对句子中的每个字进行标记,如四符号标记 B, I, E, S,分别表示当前字是一个字的开始、中间、结尾,以及独立成词。这种方法首次由 Nianwen Xue et al.(2002)提出,之后研究者们尝试使用不同的序列标注模型,如最大熵、 SVM、结构化感知器、 CRF 等,不断提高分词效果。目前基于序列标注的方法在学术界仍然是分词主流方法。 基于转移的分词方法 :这种方法借鉴了基于转移的依存句法分析的思路, 从左到右扫描句子中的每一个字,将分词过程转化为一个动作 append, separate序列,使用柱搜索获得最优动作序列 (Zhang and Clark, 2007)。和基于序列标注的方法相比,基于转移的方法可以更灵活的融入各种特征,特别是基于词的特征,因此在学术界受到越来越多的关注。 3.1.2 分词主要研究进展 有效的特征集合 :经过研究者们的摸索,对于中文分词模型,无论是基于 字 序列标注的方法还是基于转移的方法,都形成了一套有效稳定的特征集合,如 n 元字串、字的类别、叠字现象、偏旁部首作为形态信息等等。 基于这些特征集合,后续研究者们可以很快实现出效果很好的分词系统。 基于词典的特征 : 分词过程中,可以把“当前字开始的三个字构成的字串是否在词典中出现”这样的信息作为特征,加入到统计模型中,这种信息称为基于词典的特征。使用基于词典的特征,实际上是将基于词典的规则系统和基于统计的分词方法进行了软融合。研究者们发现,在处理跨领域文本时,如果有比较好的领域词典,基于词典的特征可以显著提高分词 准确率 (Pi-Chuan Chang et al., 2008; 张梅山等 , 2012)。在 NLPCC-2015/2016 会议上组织的微博分词任务上,评测结果也同样验证了词典特征的有效性。 基于无标注数据的半指导特征 :如何从大规模无标注数据中获得帮助,一直是研究界非常感兴趣的研究方向。近年来,研究者们探索出了很多有效的基于无标注数据的半指导特征,如两个字串之间的互信息( mutual information),一个字串左右邻接字的多样性( accessor variety) ,一个字串左右邻接标点符号的频率,字串在篇章中出现频率,汉字的左右边界熵,两个汉字的卡方统计量等 (Weiwei Sun and Jia Xu, 2011; 韩东煦、常宝宝 , 2015)。研究表明,这些半指导特征可以显著提高分词准确率,尤其在领域移植的场景中处理有别于训练数据的文本时。 基于自然标注数据的学习方法 :网页源文本中包含了大量的 html 标记,指定 了 文字在网页中的角色、超链接、显示位置或显示格式,而这些标记无形中也隐含了分词边界信息。研究者们将这种隐含的分词边界信息称为自然标注,将包含自然标注信息的文本转化为局部标注数据,加入到模型训练数据中,显著提高了分词效果 (Wenbin Jiang et al., 2013; Yijia Liu et al., 2014)。 基于异构标注数据的学习方法 :汉语数据目前存在多个人工标注数据,然而不同数据遵守不同的标注规范,因此称为多源异构数据。近年来,学者们就如何利用多源异构数据提高模型准确率,提出了很多有效的方法,如基于指导特征的方法、基于部分词( subword)的方法、基于成对序列标注的方法。 7 基于深度学习的分词方法 :近几年,深度学习方法为分词技术带来了新的思路,直接以最基本的向量化原子特征作为输入,经过多层非线性变换,输出层就可以很好的预测当前字的标记或下一个动作。在深 度学习的框架下,仍然可以采用基于子序列标注的方式,或基于转移的方式,以及半马尔科夫条件随机场。深度学习主要有两点优势 :1) 深度学习可以通过优化最终目标,有效学习原子特征和上下文的表示; 2)基于深层网络如 CNN、 RNN、 LSTM等,深度学习可以更有效的刻画长距离句子信息。 词法句法一体化建模 :随着计算资源的飞速发展和对机器学习模型的理解更加深入,研究者们提出了很有效的统计模型,直接从字开始对句子进行分析,输出分词、词性、句法的结果。多年前也有研究者提出词法句法一体化分析,如最有代表性的 NLPWin,但是均采 用基于规则的方法。基于统计模型的一体化建模可以让词法句法分析互相影响,互相提高,显著提高了词法和句法的分析效果。尤其值得提出的是,研究者们提出进一步分析词语内部结构,有效缓解了数据稀疏问题。 国际公开评测任务 :自从第一届 SIGHAN Bakeoff 2003 开始 ,国内学术界多年来不断组织针对分词的国际公开评测任务,组织方提供由多个机构提供的公开训练和评测数据集,吸引了国内外研究机构、大学和公司参赛,吸引了大量研究者从事相关研究,极大的促进了分词技术的发展。近年来,分词评测任务的关注点已经由传统的规范文本上 的分词方法转向面向非规范文本和跨领域文本上的分词方法。 2010 年 CIPS-SIGHAN 将测试语料分为四个领域:文学、计算机、医药、金融,引导研究者们对分词的领域迁移问题进行研究。 2012 年CIPS-SIGHAN 首次针对微博文本开展分词评测。 2015 年 NLPCC 会议也开始组织面向微博文本的分词和词性标注联合评测任务。修驰 (2013, 表 1-5)对历届 SIGHAN 评测及相关数据给出了一个完整的总结。 分词开源软件开放 :近年来,随着国内科研水平的提高,国内学术界纷纷开放研究相关的代码、数据,供其他研究者使用。其 中,据笔者所知,影响较大、使用人数较多的几个分词系统包括中科院计算所的 ICTLAS 分词系统、哈工大语言技术平台 LTP、清华大学自然语言处理工具包、海量云分词等。 3.1.3 分词目前面临的主要挑战 分词歧义消解 :分词歧义是指在一个句子中,一个字串可以有不同的切分方法。例如,“乒乓球拍卖完了”,可以切分为“乒乓 /球拍 /卖 /完 /了”,也可以切分为“乒乓球 /拍卖 /完 /了”,类似的例子还有“门把手弄坏了”。虽然基于人工标注数据的统计方法能够解决很大一部分分词歧义,然而当面临一些训练语料中没有出现过的句子(或子句) 时,基于统计的方法可能会输出很差的结果。 未登录词(新词)识别 :未登录词( out-of-vocabulary, OOV)指未在训练数据中出现过的词,而新词指日常生活中人们新创的一些词(也可能是旧词新意)。大部分未登录词是专有名词,包括人名、地名、机构名等。黄昌宁、赵海 (2007)发现,未登录词(新词)识别错误对分词效果有着很大的影响。一般的专有名词还有一定的构词规律,如前缀后缀有迹可循。而新词则五花八门,如新术语、新缩略语、新商品名、绰号、笔名等。据 2002 年统计,每年会产生超过 800 个新的中文词(修驰 , 2013)。直到目前为止,未登录词识别,尤其是新词识别,仍然是分词研究面临的最大挑战。尤其是在领域移植的情境下,当测试文本与训练数据的领域存在较大差异的时候,未登录词的数量增多,导致分词效果变差。 错别字、谐音字规范化 :当处理不规范文本(如网络文本和语音转录文本) 时 ,输入的句子中不可避免会存在一些错别字或者刻意的谐音词(如“香菇” -“想哭”;“蓝瘦” -“难受”;“蓝菇” -“难过”等等)。这些错别字或谐音字对于分词系统造成了很大的困扰。 分词粒度问题 :分词粒度的选择长期以来一直是困扰分词研究的一个难题 。选择什么样的词语切分粒度,是和具体应用紧密相关的。另外, Sproat et al. (1997)研究发现,即使是以汉语为母语的人,对于汉语词语认识的一致也只有 0.76。汉语语法教科书中对“词语”的定义是“语言中有意义的能单独说或用来造句的最小单位”,然而这种定义的实际操作性很差。实际操作时,如语料标注过程中,研究者们往往把“结合紧密、使用稳定”视为分词单位的界定准则,然而人们对于这种准则理解的主观性差别较大,受到个人的知识结构和所处环境的很大影响 (黄昌宁、赵海 , 2007)。这样就导致多人标注的语料存在大 量不一致现象,8 即表达相同意思的同一字串,在语料中存在不同的切分方式,如“我国”和“我 /国”。修驰 (2013, 表 1-3)粗略估计发现,在 SIGHAN Bakeoff-2005 采用的 PKU 训练语料中,有约 3%的字可能存在切分不一致的问题。考虑到目前分词模型的准确率已经可以达到 95%( F 值)以上,切分不一致的问题可能导致语料本身无法可信地评价模型。 3.2 词性标注 给定一个切好词的句子,词性标注的目的是为每一个词赋予一个类别,这个类别称为词性标记( part-of-speech tag),比如,名词( noun)、动词( verb)、形容词( adjective)等。 3.2.1 词性标注主要方法 词性标注是一个非常典型的序列标注问题。最初采用的方法是隐马尔科夫生成式模型,然后是判别式的最大熵模型、支持向量机模型,目前学术界通常采用结构感知器模型和条件随机场模型。近年来,随着深度学习技术的发展,研究者们也提出了很多有效的基于深层神经网络的词性标注方法。 3.2.2 词性标注研究的近几年主要进展 词性标注和句法分析联合建模 :研究者们发现,由于词性标注和句法分析紧密相关,词性标注和句法分析联合 建模可以同时显著提高两个任务准确率。 异构数据融合 :汉语数据目前存在多个人工标注数据,然而不同数据遵守不同的标注规范,因此称为多源异构数据。近年来,学者们就如何利用多源异构数据提高模型准确率,提出了很多有效的方法,如基于指导特征的方法、基于双序列标注的方法、以及基于神经网络共享表示的方法。 基于深度学习的方法 :传统词性标注方法的特征抽取过程主要是将固定上下文窗口的词进行人工组合,而深度学习方法能够自动利用非线性激活函数完成这一目标。进一步,如果结合循环神经网络如双向 LSTM,则抽取到的信息不再受到固定窗口的 约束,而是考虑整个句子。除此之外,深度学习的另一个优势是初始词向量输入本身已经刻画了词语之间的相似度信息,这对词性标注非常重要。 3.3 句法分析 语言语法的研究有非常悠久的历史,可以追溯到公元前语言学家的研究。不同类型的句法分析体现在句法结构的表示形式不同,实现过程的复杂程度也有所不同。因此,科研人员采用不同的方法构建符合各个语法特点的句法分析系统。下文主要对句法分析技术方法和研究现状进行总结分析。 3.3.1 依存句法分析 依存语法历史悠久,最早可能追溯到公元前几 世纪 Panini 提出的梵文语法。依存语法的现代理论起源于法国语言学家 Lucien Tesniere 的工作。依存语法存在一个共同的基本假设:句法结构本质上包含词和词之间的依存(修饰)关系。一个依存关系连接两个词,分别是核心词( head)和依存词( dependent)。依存关系可以细分为不同的类型,表示两个词之间的具体句法关系。目前,依存语法标注体系已经被自然语言处理领域的许多专家和学者所接受和采纳,应用于不同语言中,并不断地发展和完善。研究者们提出并实现了多种不同的依存分析方法,达到了较好的准确率。计算自然语 言学习国际会议 CoNLL 举办的公开评测任务中, 2006、 2007 连续两年举行了多语依存句法分析评测,对包括汉语在内的十几种语言进行依存分析; 2008、 2009 年则对依存分析和语义角色标注联合任务进行评测。国内外多家大学、研究机构和商业公司都参加了这些评测任务。这些评测一方面提供了多 种 语言的标准评测数据集,另一方面提供了研究者们就依存句法分析进行集中交流、讨论的平台。 依存句法分析的形式化目标是 针对 给定输入句子 x = w0w1 wi wn,寻找分值(或概9 率)最大的依存树 d: d = argmaxdY(x)Score(x,d;) (1.1) 其中, Y(x)表示输入句子 x对应的合法依存树集合,即搜索空间 ; 为模型参数 , 即特征权重向量。 目前研究主要集中在 数据驱动的依存句法分析方法,即在训练实例集合上学习得到依存句法分析器,而不涉及依存语法理论的研究。数据驱动的方法的主要优势在于给定较大规模的训练数据,不需要过多的人工干预,就可以得到比较好的模型。因此,这类方法很容易应用到新领域和新语言环境。数据驱动的依存句法分析方法主要有两种主流方法:基于图( graph-based)的分析方法和基于转移( transition-based)的分析方法。 基于图的依存句法分析方法 : 基于图的 方法 将依存句法分析问题看成从完全有向图中寻找最大生成树的问题。一棵依存树的分值由构成依存树的几种子树的分值累加得到。根据依存树分值中包含的子树的复杂度,基于图的依存分析模型可以简单区分为一阶 和高阶 模型。高阶模型可以使用更加复杂的子树特征,因此分析准确率更高,但是解码算法的效率也会下降。基于图的方法通常采用基于动态规划的解码算法,也有一些学者采用柱搜索 (beam search)来提高效率。学习特征权重时,通常采用在线训练算法,如平均感知器( averaged perceptron)。 基于转移的依存句法分析方法 : 基于转移的 方法 将依存树的 构成 过程建模为一个动作序列,将依存分析问题转化为寻找最优动作序列的问题。 早期,研究者们使用局部分类器(如支持向量机等 )决定下一个动作。近年来,研究者们采用全局线性模型来决定下一个动作,一个依存树的分值由其对应的动作序列中每一个动作的分值累加得到。特征表示方面,基于转移的方法可以充分利用已形成的子树信息,从而形成丰富的特征,以指导模型决策 下一个动作。模型通过贪心搜索或者柱搜索等解码算法找到近似最优的依存树。和基于图的方法类似,基于转移的方法通常也采用在线训练算法学习特征权重。 多模型 融合 的依存句法分析方法: 基于图和基于转移的方法从不同的角度解决问题,各有优势。基于图的模型进行全局搜索但只能利用有限的子树特征,而基于转移的模型搜索空间有限但可以充分利用已构成的子树信息构成丰富的特征。详细比较发现,这两种方法存在不同的错误分布。因此,研究者们使用不同的方法融合两种模型的优势,常见的方法有:stacked learning;对多个模型的结果加权后 重新解码 (re-parsing);从训练语料中多次抽样训练多个模型 (bagging)。 3.3.2 短语结构句法分析 短语结构句法分析的研究基于 上下文无关文法 ( Context Free Grammar, CFG)。上下文无关文法可以定义为四元组 ,其中 T 表示终结符的集合(即词的集合), N 表示非终结符的集合(即文法标注和词性标记的集合), S 表示充当句法树根节点的特殊非终结符,而 R 表示文法规则的集合,其中每条文法规则可以表示为 iN ,这里的 表示由非终结符与终结符组成的一个序列(允许为空)。 根据文法规则的来源不同,句法分析器的构建方法总体来说可以分为两大类:人工书写规则和从数据中自动学习规则。人工书写规则受限于规则集合的规模:随着书写的规则数量的增多,规则与规则之间的冲突加剧,从而导致继续添加规则变得困难。 与人工书写规模相比,自动学习规则的方法由于开发周期短和系统健壮性强等特点,加上大规模人工标注数据,比如宾州大学的多语种树库的推动作用,已经成为句法分析中的主流方法。而数据驱动的方法又推动了统计方法 在句法分析领域中的大量应用。为了在句法分析中引入统计信息,需要将上下文无关文法扩展成为 概率上下文无关文法 ( Probabilistic Context Free Grammar, PCFG),即为每条文法规则指定概率值。概率上下文无关文法与非概率化的上下文无关文法相同,仍然表示为四元组 ,区别在于概率上下文无关文法中的文法规则必须带有概率值。获得概率上下文无关文法的最简单的方法是直接从树库中读取规则,利用最大似然估计( Maximum Likelihood Estimation, MLE)计算 得到每条规则的概率值。使用该方法得到的文法可以称为简单概率上下文无关文法。在解码阶段, CKY
展开阅读全文
相关资源
相关搜索
资源标签

copyright@ 2017-2022 报告吧 版权所有
经营许可证编号:宁ICP备17002310号 | 增值电信业务经营许可证编号:宁B2-20200018  | 宁公网安备64010602000642