论文部分内容阅读
用户一般通过搜索引擎来查询所需信息,而搜索引擎的返回结果很多,每个检索结果并不一定都是符合用户需求的。同时由于教育文化背景的差异,用户即使有相同的查询意图,但其提交的查询关键词也是千差万别。因此,用户输入相同的查询关键词,返回同样的结果并不能令每个用户都满意。在信息检索系统中,一般通过查询扩展技术来提高检索性能。用户通常有时会把自己的详细需求信息全部输入至信息检索系统进行检索,即用户会输入冗长查询。这就给信息检索系统带来了压力,迫使检索系统不断进行改进以满足用户输入的冗长查询的需求。目前以往的搜索引擎在处理冗长查询时性能都会下降,检索结果不能聚焦在查询主题上,返回的信息不能满足用户需求。本文提出了两种冗长查询处理方法:基于依存关系的冗长查询重构模型方法;基于语义与排序学习技术的冗长查询处理方法。基于依存关系的冗长查询重构模型方法区别于基于关键词的处理方式,而是针对冗长查询自身所具有的特征,冗长查询中的词项间具有良好的语法关系。本方法对文档进行依存关系分析,由于依存关系类型很多有些会产生噪音,因此本文对依存关系类型进行了筛选抽取有效关系对,这点达到了缩短查询词的效果,之后对不同的关系对按其在重构模型中的重要程度分配不同的权重,这点达到了重新加权的效果。实验验证了本方法对特别是对低召回率的检索性能的提升作用,MAP和P@N两个评价指标上都有很大提升。基于语义与排序学习技术的冗长查询处理方法。利用文档在不同主题空间上的分布以及计算其香农距离,并利用排序学习的方法对原始检索结果进行重新排序。这说明排序学习方法能够为冗长查询处理技术提供较大帮助。实验结果表明,对于冗长查询,不能像传统的查询扩展那样认为查询中每个词是相互独立的来看待,要充分利用其特有的依存语义信息才能够对其检索性能进行改进。本文的实验所用的语料均来自公开数据集TREC标准语料,运用多种方式对本文的实验结果进行了评测,实验结果表明本文提出的两种对于冗长查询的处理技术对检索系统性能有了较大的改进。