论文部分内容阅读
所谓共指消解就是将对应同一实体的多个表述划分到一个等价类的过程。共指消解是信息抽取中的一个重要子任务,在自然语言处理和信息检索的各个领域有着重要的应用。传统方法将共指消解分割成为两个步骤:1)分类的过程2)合并的过程。在本文,我们利用超图分割巧妙解决共指消解问题,避免了将共指消解分割成为两个过程,而是从全局优化的角度,一步解决共指消解。我们利用超图表示一篇文本,顶点代表表述,超边多个代表表述共同具备的特征,共指消解就是从全局优化的角度,将超图分割成多个独立的子图,每个子图代表一条共指链。本文重点研究了三部分的内容:共指消解的超图建模;共指消解的超图分割;无标注语料的超边权重学习。共指消解的超图建模主要集中在利用超图对共指消解进行建模,包含超边和超边权重的确定。我们引入了负连接,强连接两种超边的概念,刻画实体之间的联系。我们提出了绝对超边权重学习和加权超边权重学习,来确定超边的权重。共指消解的超图分割主要是将共指消解转化为超图分割的过程,我们分别从k路超图分割和迭代2路超图分割两个角度来解决共指消解问题。k路超图分割优化对超图的切割损失,通过求解超图分割的子图数确定共指链数。迭代2路分割优化对超图分割的容忍度,逐步分割子图,确定共指链。在ACE05中文语料上,和传统方法的比较证明了我们工作的有效性。在无标注文本的超边权重学习中,我们利用无标注的文本自动学习超边权重,将有指导的超图分割转化为无指导超图分割问题。我们分别提出了利用核心词匹配的方法和基于词关联度的方法。词关联度是有效的共指特征,受限于稀疏性和计算复杂度,词关联没能有效应用在共指消解中,本文通过巧妙的转化,利用词关联的信息学习超边的权重。实验结果表明,我们的方法具备媲美有指导的方法,并具备较好的移植性。