论文部分内容阅读
随着计算机技术和互联网的迅速发展,各种信息呈爆炸式增长,人们对信息精确定位的需求促进了自然语言处理技术的研究。指代消解是自然语言处理的重点和难点之一,在文本摘要、机器翻译、多语言信息处理和信息抽取等诸多应用中都涉及到指代消解问题。而指代消解又综合了多种自然语言处理技术,它的解决依赖于词性标注、命名实体识别、名词短语识别、句法分析、语义分析等众多相关技术。本文首先深入分析了现有的指代消解技术,并对其进行了归纳总结,给出了目前指代消解领域主要存在的问题和不足,并进一步给出了该领域当前的研究热点和趋势。作为研究基础,本文参考Soon等(2001)给出的经典指代消解基本框架构建了一个性能良好的指代消解基准平台,与国际上一些出色的指代消解系统相比,该平台在MUC-6和ACE2003上的性能均达到了国际领先水平。在此基础上,本文从以下三方面展开了深入研究:第一,基于中心理论的指代消解研究。在中心理论的指导下,借助语义角色将中心理论从语法层扩展到语义层,并提取了与之相关的三组特征:语义角色特征,代词阶特征和代词子类别特征。在ACE 2003语料上进行的各类实验都表明,这三组特征能极大地提升了指代消解的性能,特别是代词消解的性能。同时,实验也表明,它们不仅对短距离指代关系的消解有益,对长距离指代关系的消解也很有帮助。第二,基于树核函数的指代消解研究。在深入研究平面特征的基础上对结构化信息在指代消解中的应用进行了探索。重点研究了多种捕获结构化信息的方案,并通过实验分析了它们的优缺点。例如,在中心理论的指导下,增强了先行语候选词所在位置的句法描述;根据双候选模型,增加了先行语候选词的竞争者信息;在结构化信息中引入语义角色及代词类别等信息。在ACE 2004英文语料中的实验表明,基于树核函数的方法大大提高了英文指代消解的性能,特别是当前句代词消解的性能。同时,在ACE 2005中文语料中的实验表明,基于树核函数的方法同样大大提高了中文指代消解的性能,这表明结构化信息对指代消解而言是非常重要的,而且是语言无关的。第三,指代消解中待消解项的自动识别研究。探讨了基于规则、平面特征和树核等三种待消解项识别方法,并将这三种待消解项识别方法分别应用于指代消解,通过对实验数据的分析阐述了待消解项识别对指代消解的作用。