论文部分内容阅读
共指消解是自然语言处理中的核心任务,它对于篇章分析、自动文摘、信息抽取、信息检索、信息过滤和机器翻译等都具有重要的意义。本文采用基于实例的动态泛化机制,在中英文上完成共指消解。基于实例的动态泛化机制的核心思想是:从训练实例中寻找那些与测试实例最相似的实例,并根据最相似的训练实例的正、反类别分布预测测试实例的类别标签。以此核心思想为基础,本文提出了泛化点的概念,并设计了动态泛化机制的两个基本算法。本文重点研究了两类动态泛化机制:基于平面特征的动态泛化机制和基于复杂特征的动态泛化机制。对基于平面特征的动态泛化机制的研究,本文着重解决了动态泛化机制基本算法中尚未解决的最佳泛化点选取标准与正值置信度计算问题。本文提出了5种最佳泛化点选取标准,并将正例置信度定义为对正例所占比例的分段线性函数。实验结果表明,以本文提出的最佳泛化点选取标准与正例置信度定义方式作为基础,基于平面特征的动态泛化机制在中英文语料达到的效果与三种传统机器学习方法的效果相当。复杂特征包含取值分别为字符序列型、结构型的特征。本文分两个子任务对基于复杂特征的动态泛化机制进行了研究:(1)基于中心语特征的动态泛化机制研究。本文引入了先行语和照应语的中心语作为新的特征,其属于字符序列型。针对动态泛化机制基本算法的错误分析结果,本文提出竞争模式以捕获命名命名实体识别错误与语言互斥的搭配。实验结果表明,采用竞争模式后,基于中心语特征的动态泛化机制在英文语料上取得明显的增强效果,但在中文语料上有待进一步改进。(2)基于结构特征的动态泛化机制研究。本文引入了Simple-Expansion树形结构作为新的特征,其属于结构型。本文提出了两种树形结构修剪策略解决结构型泛化点匹配问题,并再次通过竞争模式将树形结构特征融合进动态泛化机制。实验结果表明,采用竞争模式后,基于结构特征的动态泛化机制在英文语料上的效果并不理想,对结构特征开发利用的研究仍需进一步改进。