论文部分内容阅读
自然语言文本之间的推理和反义关系被视为文本语义关系的核心,在很多自然语言处理任务中(如信息检索,文档摘要,问答系统等)都有着广泛的应用。
自2005年第一届文本推理识别(RTE,Recognizing Textual Entailment)评测开展以来,这项评测已吸引了很多研究机构的参加,文本推理已成为国际上自然语言处理研究的热点问题之一。文本推理被定义为两文本段之间的定向关系,根据人类共同的语言理解和共同的背景知识,由一个文本所蕴含的内容可以推断另一个文本很可能是正确的。2008年第四届文本推理识别评测正式加入文本反义识别任务,要求正确辨别两文本段之间为反义关系,推理关系还是无任何关系。如果两文本极不可能同时成立,那么认为它们是反义的。
针对文本推理识别任务,本文将两文本段表示成依存关系树,提出一种基于依存树转换的方法,利用树之间的匹配情况来判断两文本之间的推理关系。我们的方法还综合利用了命名实体识别和消解、依存关系解析、正则表达式等技术,并广泛利用了语义知识库如WordNet、VerbOcean和启发式规则以提高匹配的准确率。基于本文的方法参加第六届文本推理评测(RTE-6),RTE-6包括主任务(Main Task)和新颖性检测子任务(Novelty Detection Subtask)两个评测任务,我们在这两个任务上均取得综合指标第一名的好成绩。
针对文本反义识别任务,本文首先分析了引起反义关系的原因和难点,在文本推理系统框架的基础上,引入了新的反义特征以提高效果。为了进一步提高识别的准确率,本文在实施反义特征之前加入了一个过滤过程,并改进了VerbOcean知识库。基于第四届和第五届评测数据集的实验结果证明了本文方法的有效性。