论文部分内容阅读
共指消解作为自然语言处理中的一个重要问题一直受到学术界的重视。所谓共指消解就是判断文本中出现的不同形式的指称语(包括专有名词、普通名词短语和代词)是否指示相同实体。二十多年来,基于规则的和基于统计的不同方法被提出,在一定程度上推进了该问题研究的发展,但总体而言,共指消解任务中仍存在大量尚未解决的问题,主要包括:1.联合消解问题;2.共指特征选择问题;3.评测准则多样性问题;4.特定语言下的特殊问题,比如英文的冗余代词问题以及中文的零指代消解问题。 本文总结了二十多年来共指消解任务的研究进展及存在的问题,并用马尔科夫逻辑网络,对共指消解问题作了研究,证明了该框架对于处理共指消解问题的有效性。马尔科夫逻辑网络是2004年由美国华盛顿大学的Richardson和Domingos提出的,它是一种概念上简单而表达能力极强的统计关系学习模型。该模型同时组合了一阶谓词逻辑与马尔科夫网络,具有既能处理复杂性问题,又能处理不确定性问题的能力。该方法一提出,便被广泛应用于自然语言处理、计算视觉以及生物信息学等多个领域。本文利用马尔科夫逻辑网络能够进行多任务联合学习的特性,研究了共指消解问题中成对分类与表述聚类的联合学习问题,同时,通过扩展该框架,探索共指消解中的特征学习与特定损失函数优化等关键子问题。 本文的主要贡献点在于: (1)提出了一种基于马尔科夫逻辑网络的共指消解模型。在传统二元分类体系下进行共指消解的基本思想是,独立判断两个指称表述是否共指。这很容易产生冲突。比如a和b且b和c均判断为共指,但a和c却判断为不共指。于是,一些表述聚类方法(比如最优最先或传递性约束)被应用于成对分类之后进行联合推断。但仅仅在推断过程中“联合”并不是一个真正意义上的“联合模型”。因为共指特征权重的学习依旧是独立进行的。本文采用马尔科夫逻辑网络,将成对分类和表述聚类融合在一个统一的框架下进行联合推断与联合学习,采用局部规则刻画成对分类,采用全局规则刻画表述聚类。实验结果表明,该模型可以获得更好的实验效果。 (2)提出了一种基于马尔科夫逻辑网络的共指特征选择方法。有效的特征选择过程对于机器学习来说起着至关重要的作用,共指消解问题也不例外。然而如何能够获得有效的特征却是十分困难的。本文基于马尔科夫逻辑网络的结构学习(Structure Learning)方法进行共指特征的自动选择,能够学习到更多更有效的用以判断共指的一阶谓词逻辑规则。将这些新特征应用在共指消解模型中,可以使实验结果得到有效提升。 (3)提出了一种优化不同共指评测准则的特定损失函数优化学习策略。目前共指消解的评价系统中包含MUC、B-Cubed和CEAF等多种评测准则,且不同评测准则的针对性不同,比如MUC倾向于输出结果中包含更多的边,而B-Cubed倾向于输出结果中包含更多的单点聚类(Singletons)。因此,本文基于马尔科夫逻辑网络实现了一种特定损失函数优化策略的共指消解方案,对不同评测准则目标分别进行优化,能够获得相应评测准则下最佳的实验效果。 (4)提出了一种基于马尔科夫逻辑网络的中文零指代消解模型。中文零指代消解问题包括零指代项的识别和零指代项的消解两个相互关联的子任务。传统的方法在解决该问题时,往往不考虑两个子任务间的关联关系,比如识别出的零指代项必须被消解以及发生消解的必须是零指代项等约束。本文基于马尔科夫逻辑网络,将零指代项的识别和零指代项的消解的两个子任务融合在一个统一的框架下进行联合推断与联合学习,采用局部规则刻画零指代项的识别和零指代项的消解,采用全局规则刻画这两个子任务间的关联关系。实验结果显示,该模型相比于独立学习模型以及若干baseline系统能够获得更好的实验效果。