论文部分内容阅读
省略现象在人类语言中普遍存在,人们在处理省略现象时,通常需要补充出缺省的成分,才能完整地理解句子的语义。以往的研究大都依赖句子中出现的与省略成分相同的词语也即先行语,来补充省略成分。但是,汉语中省略成分与先行语有时并不完全对应,有些省略成分甚至不存在先行语。对于计算机来说,正确地识别和恢复省略成分并不简单,目前省略识别与消解系统的表现不如人意。究其原因,主要包括以下三个方面:(1)省略现象的界定本身存在争议,省略现象的判定标准并不统一;(2)省略成分与先行语并不总是完全对应,甚至存在无先行语的省略句,这也加大了恢复省略成分的难度;(3)标注了省略现象的语料资源匮乏,省略的表示机制不够合理,省略的理论研究和自动消解系统缺乏大规模高质量的语料资源作为支撑。为了解决这些问题,本文采用了一种新的语义表示方法——抽象语义表示(AMR),改进了省略成分的标注方法,使其能够较为合理地恢复汉语句子中的各类省略成分。在此基础上,本文构建了包含10000句新闻语料的中文AMR语料库,重点研究了汉语中不同类型的省略成分的恢复策略及其分布情况,并探讨了省略成分与先行语的对应关系。本文的工作主要包括以下三个方面:(1)针对省略现象的判定标准不统一的问题,本文从资源建设和可操作性的角度,确定了语义标注时省略现象的判定标准,把在句子的语义理解中必不可少,但在表层结构中没有出现的成分看作省略。本文只关注对句义的完整性起重要作用的主要语义成分,并不把省略的修饰语作为研究目标。此外,空语类、“的”字结构、论元共享和比较项不完整等现象符合本文中省略的定义,因此都被划入省略现象的范畴。明确语义标注时省略现象的判定标准,提高了标注的一致性和标注语料的质量。(2)针对省略成分与先行语不完全对应的问题,本文根据省略成分与先行语的语义关系,对省略现象进行重新分类,将其分为与先行语完全对应的省略、与先行语不完全对应的省略和无先行语的省略三类。然后介绍了中文AMR处理这三类省略现象的方法,分别采用复制先行语、新增概念、复制先行语与新增概念相结合的方法合理地将语料中的省略成分补充出来。根据省略成分是否存在修饰语及其数量多少,恢复的省略成分在AMR图中的表现可以分为三类——完整的子树、子树的根节点以及子树的一部分,本文也设计了特殊的标签进行区分,完善和提高了中文AMR处理汉语中各类省略现象的能力。(3)针对省略现象的语料资源较少,省略的理论研究与消解系统缺乏数据支撑的问题,本文构建了一个10000句规模的包含省略信息的中文AMR语料库,在此基础上,统计分析了省略现象的分布情况。统计发现,有56.21%的句子出现了省略现象,其中与先行语完全对应的省略占所有句子的90.82%,与先行语不对应的省略和无先行语的省略分别占9.63%和14.5%1。此外,本文还统计省略成分的语义角色分布情况,87.79%的省略成分都是核心语义角色,并且各类语义角色的分布极不均衡,其中原型施事(arg0)出现省略现象的频率最高;62.28%的省略成分与先行语的语义角色一致,而出现最频繁的语义角色——arg0的一致性高达70%。综上所述,本文重点关注了中文AMR语料库中的省略现象,确定了省略的定义及表示方法,统计分析了汉语中省略现象的分布特点和规律,为省略现象的理论研究和识别恢复提供了数据基础。具体而言,统计数据验证了理论研究提出的省略现象非常普遍这一观点,也证明了汉语中不存在先行语或存在不完全对应的先行语的省略句占比较高,单纯依赖先行语的恢复方法并不合理,新增概念等方法很有必要。此外,通过比较先行语与省略成分的语义角色异同,我们发现先行语不仅在恢复省略成分时发挥着重要作用,同时也能为确定省略成分的语义角色提供线索。