论文部分内容阅读
抽象语义表示(Abstract Meaning Representation,AMR)是一种近几年国际上新兴的语义表示结构,它旨在对整个自然语言句子进行语义表示,打破了传统的句法树结构的局限性。AMR将一个句子的语义抽象为一个含有单个根节点的有向无环图,从而使得它可以不受限于句子的语法形式。显然,AMR的这一大优点将会有力地推动很多自然语言处理领域应用的发展,例如文本摘要、实体链接、信息抽取、问答系统、机器翻译等。近年来,对AMR解析算法的研究受到了国内外研究者们的广泛关注,先后有多种不同的AMR解析算法被提出,但性能都还相对较低,目前对AMR解析算法的研究还处于初级发展阶段。本文在深入比较分析了现有各种AMR解析算法的基础上,提出了一种新的AMR解析算法。具体地,本文的工作主要包括以下三个方面:(1)深入比较分析了各种AMR相关的解析算法。按照解析过程与解析策略的不同,将现有的AMR解析算法概括为四种不同的类型:基于图的AMR解析、基于转移的AMR解析、基于文法的AMR解析和基于机器翻译的AMR解析,并对这四种类型的解析算法分别进行了深入的比较与分析。(2)设计与实现了一个基于Shift-Reduce的AMR解析baseline系统,该系统可以实现增量式的AMR解析。在对比研究了 AMR图与依存树结构差异性的基础上,对在依存分析中广泛采用的ARCEAGER动作集进行了适当改进使其应用于AMR解析任务,并分别采用最大熵、支持向量机和前馈神经网络模型作为转移动作分类器,实现了一个基于贪心解码过程的AMR解析器。实验结果表明,基于最大熵模型和前馈神经网络模型的分类器获得了相对较好的AMR解析性能。(3)设计与实现了一个基于扩展Shift-Reduce和全局解码的AMR解析系统。该系统主要是对baseline系统进行了改进,首先是对baseline系统中的转移动作集进行了重新设计,在此基础上设计了一种beam-search算法实现对概念和关系的全局解码,并针对近似解码的特性,采用一种最大违背(Max-violation)感知器算法实现对模型的参数训练。实验结果表明,该改进系统的性能明显优于baseline系统,在没有使用任何外部语义资源的情况下,达到了与现有最好的AMR解析器相当的解析性能。