论文部分内容阅读
共指消解是自然语言处理中的核心任务,它对于信息抽取、信息检索、篇章分析、自动文摘、信息过滤和机器翻译等都具有重要的意义。本文对基于实例动态泛化的共指消解方法中存在的若干问题进行了改进;开发了多种共指链生成方案用于合并二元分类结果,从而提升共指消解的性能指标;我们将基于实例动态泛化的共指消解方法应用在自然语言处理的其他任务上,帮助提升这些问题的处理效果。本文重点研究了三部分内容:基于实例动态泛化的共指消解方法中的相关问题;二元分类结果合并也即共指链生成方案的研究;以及基于实例动态泛化方法在自然语言处理其他任务中的应用。基于实例动态泛化的共指消解方法的相关工作主要集中在Mention识别和精确泛化点的构建两部分。我们开发了基于分类方法和基于序列标注方法两类Mention识别算法,改善识别效果解决层级错误传递问题。此外,为了解决泛化点的质量问题,我们引入了精确泛化点概念,通过抽取更为准确的特征改进消解算法,在多种语料上的实验证明了我们工作的有效性。在二元分类模块之后,下一步需要解决共指链生成方案。本文讨论了三种二元分类合并算法:基于词汇信息的方法;基于分类置信度的方法;基于Ranking的方法。这三种方案原理不同,适用场合不同,取得的效果也有所差别。我们对这三种方案进行了详细的分析比较,证明了我们工作的有效性,但这种合并始终受限于二元分类过程的处理精度,很难取得根本性的突破。在二元分类算法和共指链生成方法的基础上,我们把基于实例动态泛化的共指消解方法应用在了全局实体关系抽取任务上。这项任务不同于传统的句子级关系抽取,而是针对篇章中的所有实体进行关系抽取,不限于同一句子中。这项任务需要引入篇章级别的信息,包括共指以及并列等。通过音乐领域的实验证明,利用共指消解方法引入篇章信息之后,可以大幅度提高全局实体关系抽取效果。