论文部分内容阅读
随着人们对信息检索的要求越来越高,单单依靠倒排索引和词匹配技术的搜索引擎,在用户输入的查询语句普遍比较短,不能详细而准确描述查询意图的情况下,返回给用户的结果会出现错误和遗漏问题。由此,查询扩展、查询推荐等成为信息检索的研究对象和热点。不管是使用知识库还是分析语料库来获取查询扩展词的方法都有相应的缺陷,为此,本文提出了基于随机游走模型的自动查询扩展方法,同时分析了针对元搜索的自动查询扩展方法。另外,绝大部分的研究可能忽略了一个问题,就是有时候用户不知道应该输入怎样的查询语句通过搜索引擎去获取其想要的信息,很多情况发生的是搜索引擎并不能理解用户查询语句的搜索意图。为此本文提出了基于互动百科知识的语义逻辑引导的查询处理方法,充分利用三元组数据的特点来处理带语义逻辑的查询语句。本文的创新点包括:1)提出了基于互动百科知识的语义逻辑引导的查询处理方法。将互动百科网页文档上的结构化知识抽象为三类:实例、关系和术语,基于这三类知识之间的三元组关系,结合语义逻辑符号,帮助用户构造更清晰的查询语句,同时能够处理查询语句中的相似等一般搜索引擎不能处理的逻辑。在已实现的语义逻辑引导的搜索的原型系统上,通过用户参与,实验表明,使用DOM规律抓取互动百科知识的准确率达到了90%,语义逻辑引导的搜索,其Top10的文档准确性比未引导的高出6个百分点左右。2)提出了基于随机游走模型的自动查询扩展方法。结合词语之间的词汇和语义上的多种关联,包括大型通用语料库和初检Top-N文档中的词共现、同义词、语义分类树中的上下位关系。通过不同链接类型不同组合下的随机游走算法之间,以及与伪相关的局部上下文查询扩展方法的实验比较,证明了结合了四种链接类型的随机游走方法与未进行自动查询扩展的情况相比,前者的综合评估F值要比后者高出8个百分点左右,同时,与伪相关的局部上下文分析方法相比,在确保提高准确率的情况下,同时也提高了召回率,保证了信息检索整体的稳步提升,增强了自动查询扩展的鲁棒性。3)在查询多样化方面,基于互动百科海量的语义分类知识,针对模糊的查询语句,检索不同语义下的文档,对文档分类后,借助自动摘要技术,将分类摘要和分类文档可视化。从而帮助用户快速找到信息。