论文部分内容阅读
文本蕴含识别是处理自然语言中广泛存在的同义异形现象的一种有效途径,在自然语言处理领域中占有基础而又重要的地位。提高文本蕴含识别的性能对于提高信息检索、信息抽取、自动问答、文本摘要等系统的效率起到重要作用。FrameNet知识资源是一个具有丰富语义信息的词汇资源,在词汇资源中占有重要地位,目前已被广泛应用于自然语言处理领域,如语义推理、本体构建、句子相似度计算等。本文将框架语义学的相关理论知识应用于文本蕴含识别系统中,并分析了语义知识资源FrameNet对文本蕴含识别性能的影响,进一步探索了利用FrameNet框架关系进行语义推理的方式方法。本文在分析了国内外文本蕴含识别研究现状的基础上,以FrameNet词汇知识资源为基础,提出了一种利用FrameNet框架及其框架关系建立文本蕴含模型来识别文本蕴含的方法。本文以框架语义学为理论依据,深入研究FrameNet资源中的框架、框架关系以及框架元素等,确定FrameNet资源中可用于文本蕴含识别的知识,然后将这些知识进行形式化描述,构建框架蕴含关系图,并按照框架关系建立框架元素之间的映射。论文依据FrameNet词汇资源,结合框架蕴含关系图以及框架元素之间的映射关系,在给定文本T和假设H中目标词激起的框架基础上,利用深度优先搜索,在框架蕴含关系图中,查询T和H中框架之间的上下位关系;再使用词汇对比和词汇资源WordNet及其语义关系判断具有映射关系的框架元素的填充词是否一致或相似,从框架和框架元素两个层面实现文本蕴含识别。论文利用FrameNet词汇资源在第三届文本蕴含识别评测(RTE-3)语料上进行了实验,采用本文的方法进行文本蕴含识别的准确率和召回率分别为77.06%和56.13%,其中准确率仅低于第三届文本蕴含识别评测的最优结果。