基于依存关系树的文本推理与反义识别技术

来源 :北京大学 | 被引量 : 0次 | 上传用户:tx9yky76
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言文本之间的推理和反义关系被视为文本语义关系的核心,在很多自然语言处理任务中(如信息检索,文档摘要,问答系统等)都有着广泛的应用。   自2005年第一届文本推理识别(RTE,Recognizing Textual Entailment)评测开展以来,这项评测已吸引了很多研究机构的参加,文本推理已成为国际上自然语言处理研究的热点问题之一。文本推理被定义为两文本段之间的定向关系,根据人类共同的语言理解和共同的背景知识,由一个文本所蕴含的内容可以推断另一个文本很可能是正确的。2008年第四届文本推理识别评测正式加入文本反义识别任务,要求正确辨别两文本段之间为反义关系,推理关系还是无任何关系。如果两文本极不可能同时成立,那么认为它们是反义的。   针对文本推理识别任务,本文将两文本段表示成依存关系树,提出一种基于依存树转换的方法,利用树之间的匹配情况来判断两文本之间的推理关系。我们的方法还综合利用了命名实体识别和消解、依存关系解析、正则表达式等技术,并广泛利用了语义知识库如WordNet、VerbOcean和启发式规则以提高匹配的准确率。基于本文的方法参加第六届文本推理评测(RTE-6),RTE-6包括主任务(Main Task)和新颖性检测子任务(Novelty Detection Subtask)两个评测任务,我们在这两个任务上均取得综合指标第一名的好成绩。   针对文本反义识别任务,本文首先分析了引起反义关系的原因和难点,在文本推理系统框架的基础上,引入了新的反义特征以提高效果。为了进一步提高识别的准确率,本文在实施反义特征之前加入了一个过滤过程,并改进了VerbOcean知识库。基于第四届和第五届评测数据集的实验结果证明了本文方法的有效性。
其他文献
作为构件的运行支撑平台(Component Operating Platform),应用服务器为网络应用的开发、部署与运行提供了全方位的支持,同时通过凝练和提取一系列公共服务支持复用,降低应用开发
汉语是典型的意合型语言,其研究的困难程度举世公认。相对于现代汉语而言,历时性是古汉语的突出特点。这种历时性加剧了数据不同分布和稀疏问题,使得古汉语信息处理研究进展缓慢
WAP技术的发展使手持设备也可方便地访问网络资源,但单独为这些设备开发适合其访问的网页需要投入多余的资源,开发出的网页也因为设备多样性的问题难以适应所有设备的显示。面
随着Web2.0技术的发展,用户越来越注重在互联网上交流和反馈,于是大量的评论和评价信息随之出现。这些用户生成内容,一方面可以提高读者体验,另一方面又可以用来追踪事件发展
基于内容的音乐情感识别是近年来在音乐信息检索领域新兴起的重要研究课题之一。它的提出是为了解决不断增长的海量数字音乐的管理问题以及人们多样化的音乐检索需求问题。基
在互联网高速发展和个性化的需求日益增长的环境下,当前主流的基于轮廓线的字体描述方法处理以笔画为基本结构的汉字字符时,已经很难满足个性化的需求。因为在这样的描述方法
可靠性是衡量产品发生故障难易程度的—个指标,是产品的一种固有属性。在工程设计和航空航天领域,高可靠性产品才能满足现代技术和生产的需要,才可以获得高的经济效益和拥有
随着Web技术的不断发展,在线考试系统已经被广泛的应用到各个领域之中,对系统的性能和功能都提出了更高的要求。因此,能否提供更高效、更便捷、功能更完善的在线考试系统将是
访问控制是信息安全体系中非常重要的一环,是实现数据保密性和完整性机制的主要手段,访问控制模型及其扩展一直是一个重要的研究课题。随着应用系统复杂度的提高,复杂的应用环境
随着电子商务越来越受欢迎,网络上的产品评论数量获得快速增长。对于一个流行的产品,评论数量可以达到成千上万条。这使得一个潜在客户很难通过阅读这些评论来制定他们的购买