基于马尔科夫逻辑网络的共指消解研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:mdjpos01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
共指消解作为自然语言处理中的一个重要问题一直受到学术界的重视。所谓共指消解就是判断文本中出现的不同形式的指称语(包括专有名词、普通名词短语和代词)是否指示相同实体。二十多年来,基于规则的和基于统计的不同方法被提出,在一定程度上推进了该问题研究的发展,但总体而言,共指消解任务中仍存在大量尚未解决的问题,主要包括:1.联合消解问题;2.共指特征选择问题;3.评测准则多样性问题;4.特定语言下的特殊问题,比如英文的冗余代词问题以及中文的零指代消解问题。  本文总结了二十多年来共指消解任务的研究进展及存在的问题,并用马尔科夫逻辑网络,对共指消解问题作了研究,证明了该框架对于处理共指消解问题的有效性。马尔科夫逻辑网络是2004年由美国华盛顿大学的Richardson和Domingos提出的,它是一种概念上简单而表达能力极强的统计关系学习模型。该模型同时组合了一阶谓词逻辑与马尔科夫网络,具有既能处理复杂性问题,又能处理不确定性问题的能力。该方法一提出,便被广泛应用于自然语言处理、计算视觉以及生物信息学等多个领域。本文利用马尔科夫逻辑网络能够进行多任务联合学习的特性,研究了共指消解问题中成对分类与表述聚类的联合学习问题,同时,通过扩展该框架,探索共指消解中的特征学习与特定损失函数优化等关键子问题。  本文的主要贡献点在于:  (1)提出了一种基于马尔科夫逻辑网络的共指消解模型。在传统二元分类体系下进行共指消解的基本思想是,独立判断两个指称表述是否共指。这很容易产生冲突。比如a和b且b和c均判断为共指,但a和c却判断为不共指。于是,一些表述聚类方法(比如最优最先或传递性约束)被应用于成对分类之后进行联合推断。但仅仅在推断过程中“联合”并不是一个真正意义上的“联合模型”。因为共指特征权重的学习依旧是独立进行的。本文采用马尔科夫逻辑网络,将成对分类和表述聚类融合在一个统一的框架下进行联合推断与联合学习,采用局部规则刻画成对分类,采用全局规则刻画表述聚类。实验结果表明,该模型可以获得更好的实验效果。  (2)提出了一种基于马尔科夫逻辑网络的共指特征选择方法。有效的特征选择过程对于机器学习来说起着至关重要的作用,共指消解问题也不例外。然而如何能够获得有效的特征却是十分困难的。本文基于马尔科夫逻辑网络的结构学习(Structure Learning)方法进行共指特征的自动选择,能够学习到更多更有效的用以判断共指的一阶谓词逻辑规则。将这些新特征应用在共指消解模型中,可以使实验结果得到有效提升。  (3)提出了一种优化不同共指评测准则的特定损失函数优化学习策略。目前共指消解的评价系统中包含MUC、B-Cubed和CEAF等多种评测准则,且不同评测准则的针对性不同,比如MUC倾向于输出结果中包含更多的边,而B-Cubed倾向于输出结果中包含更多的单点聚类(Singletons)。因此,本文基于马尔科夫逻辑网络实现了一种特定损失函数优化策略的共指消解方案,对不同评测准则目标分别进行优化,能够获得相应评测准则下最佳的实验效果。  (4)提出了一种基于马尔科夫逻辑网络的中文零指代消解模型。中文零指代消解问题包括零指代项的识别和零指代项的消解两个相互关联的子任务。传统的方法在解决该问题时,往往不考虑两个子任务间的关联关系,比如识别出的零指代项必须被消解以及发生消解的必须是零指代项等约束。本文基于马尔科夫逻辑网络,将零指代项的识别和零指代项的消解的两个子任务融合在一个统一的框架下进行联合推断与联合学习,采用局部规则刻画零指代项的识别和零指代项的消解,采用全局规则刻画这两个子任务间的关联关系。实验结果显示,该模型相比于独立学习模型以及若干baseline系统能够获得更好的实验效果。
其他文献
随着计算机、自动化和网络技术的发展,水站远程监控系统的规模越来越大,这造成设备管理困难,设备驱动程序多样化,系统耦合度高等问题。同时,水站业务需求越来越复杂,包含了多
在环境监测、交通网络、数据中心等很多领域中,对异常事件及时、及早的检测和跟踪,是一件非常重要而有意义的事。尤其是在很多领域中,事件发生后往往具有扩散性的特征,会影响周围
随着计算机图象处理技术的发展,人们已将其用于艺术作品的保护和修复领域.该文以敦煌莫高窟为背景,介绍了变色壁画色彩虚拟恢复技术,主要包括以下内容:将图象处理和人工智能
云存储是近些年计算机学科中研究的热门课题。云存储的出现提升了用户随时随地访问文件的便捷性、降低了存储成本、带来了信息存储的新理念。目前云存储的产品已经较为丰富,越
近二十年以来,虚拟现实一直是计算机领域的热点。人们设计虚拟现实系统以满足自身娱乐、工作、探索各种方面的需求。在虚拟现实系统设计和实现的过程中,研究员和工程师会面临各
近年来信息安全事故频繁发生,信息安全越来越受到从国家、行业到个人的重视。我国当前信息安全形势严峻,尤其体现在网络安全方面,没有网络安全就没有国家安全,网络安全和信息
本文设计并实现了基于Erlang OTP的虚拟计算平台中Erlang代码的在线演化模块,为该平台提供良好的代码管理功能。在调研了已有代码在线演化技术的基础上,本文重点考虑了代码版本
随着硬件、网络及通信等技术的迅速发展,异构资源的使用已经不可避免,合理的使用异构资源已变得越来越重要并成为当今的研究热点。针对面向Julia语言的云编程环境中任务(程序
本文主要是研究在非特定场合下针对单目标的跟踪问题。给定一段视频,人为选择出将要跟踪的目标,然后在后续的视频中,对该目标的位置进行判断,进而得到目标准确的位置。   视觉
随着软件系统在人们日常生活和工作中的广泛应用以及软件技术和应用的不断发展和革新,人们对软件质量提出了更高的要求。诸如安全性、性能和可靠性等非功能需求得到人们越来越