论文部分内容阅读
互联网的迅猛发展和广泛普及使得互联网成为人们获取信息和交流信息的重要平台。一方面,互联网的规模呈爆炸式的增长,网络用户借助于搜索引擎等工具,可以方便快捷地从互联网获取信息:另一方面,海量的信息也给用户准确识别和选择有价值的信息带来了困难。因此,如何准确地从Web海量信息中检索或抽取出符合用户需求的信息成为互联网信息处理的重要课题。问答式检索和问答系统(Question Answering System)就是其中一个重要的研究课题,也是研究下一代语义搜索引擎的重要研究方向。问答系统的特点在于,一方面允许用户用自然语言提问而不是关键字的组合;另一方面系统给用户返回的是精确的答案而不是一系列的文档。用户可以精确的表达自己的信息需求,系统则在理解用户需求的基础上做出准确的信息反馈,从而实现用户与系统在语义级别上的信息交互。文档检索模块是自动问答系统的重要组成部分。在通常情况下,系统需要利用一些比较耗时的技术例如自然语言处理、信息抽取和模板匹配等来分析文档,以查找问题的答案。用这些技术去分析文档,系统会付出巨大的时间和空间开销。因此,需要减小处理对象的大小。基于上述原因,段落检索(Passage Retrieval)模块被作为文档检索模块和答案抽取模块的中间模块,加入到自动问答系统中。段落检索是信息检索领域的一个重要的研究问题,现在已经成为自动问答系统的一个关键性模块。论文的主要工作与创新如下:1)分析了文档相关性的评估方法。文档的相关性主要是指字词层面上较为浅层的相关性,因此,经典的文档检索公式不适合直接应用于段落检索。为此,本文分析了问答系统环境下段落检索的相关性,从文档和段落的区别出发,分析了两者在主题、长度和关键字数目等方面的差异,并基于这些差异,提出了适于段落检索公式的基本准则。2)提出一种基于Web的问答式段落检索方法,以适应问答系统的动态性和时效性需求。传统的方法一般是基于问题和段落之间的字词密度特征,这类方法的缺陷在于,由于问题中所包含的关键词数量过少,常常因为匹配失败而使得召回率较低。此外,基于词频和语言模型的检索算法,经常会返回一些不相关的段落。因此本文提出一种启发式查询重写方法来解决这个问题,不再是单独考虑每个关键字,而是以具有搭配关系和约束关系的词汇单元为基础,结合词汇之间的关系,综合计算段落与给定问题的相关度。3)提出一种新的基于多种特征的混合型相关性检索模型。本文研究了词汇相似度、主题相似度和结构相似度在评估问题和段落之间的语义相关性的有效性。首先设计一种基于Web的字词语义相似度的计算方法,并利用该方法对问句和段落之间的词汇相似度进行统计计算;然后采用基于概率语言模型的主题模型对段落和问题之间的相似度进行计算;对于结构相似度,主要考虑两种常见的结构:“Wh-”转移和谓词声明结构,从约束满足的角度来判断问题和段落是否包含了相同的结构约束关系。在上述工作基础上,提出了这三种相似度的有权线性组合的混合型段落检索模型。4)研究了基于段落-段落图模型的答案段落排序方法。该方法不仅考虑了答案段落与问题之间的独立相关性,而且利用段落之间的关系信息建立图模型,从全局上计算段落与问题的语义相关性。由于段落之问存在着关系,段落之间会通过关系相互影响各自与问题之间的相关性,因此,可以利用这种关系修正段落的相关性。考虑到问题类型的多样性特点,本文提出了基于KNN的问题扩展方法。该方法基于多种特征计算问题相似度,在问题空间获取最相似的问题,然后利用相似问题对原问题进行扩展,并基于扩展的问题模型获取候选的答案段落,根据段落的内容特征计算段落-段落相似度,再建立图模型。基于候选段落的图模型结构,利用基于图的排序模型对候选段落的相关性进行重新计算,并用基于学习的方法训练最优的排序参数。