论文部分内容阅读
现在互联网上的网页数目与日俱增,速度发展之快,始料未及。使得人们在摆脱了信息匮乏的困境之余,又陷入了“信息过量”的境地。由于从互联网的海量信息中寻找有用知识的信息检索技术的发展跟不上信息增长的速度,造成了所谓的“信息虽发达,知识却贫乏”的局面。
互联网网页的信息组成有文本,图片,音频,视频,flash等各种形式。文本是其中最重要的组成部分之一,其中包含了大量的信息,如图书馆的目录、作者、内容信息的查询,论坛的帖子查询,都运用到了文本信息检索的知识,但因为其为自然语言表达,难以为机器所理解,从而使得人们在获取信息的时候很难准确地获得自己所需。为此,很多人提出了各种文本信息检索模型,以期更准确地搜寻到更多用户所需的信息。
本文的主要工作体现在以下几个方面:
(1)对信息检索的经典模型、基于统计语言的信息检索模型、基于机器学习的信息检索模型,以及查询扩展模型进行了比较系统的调查研究。分析并总结了现有查询扩展模型中存在的一些不足之处。
(2)在分析了现有查询扩展模型中存在的不足的基础上,提出了一种获取有效查询扩展词的算法,即VECO算法。该算法能成功地找出与用户查询相关度很高的查询扩展词,从而将查询扩展词获取的过程转换成为一个可评价的候选查询扩展词排序问题(原有查询扩展词获取的过程是一个不可评价的候选查询扩展词排序问题)。
(3)在研究了新涌现的一批基于机器学习的信息检索模型的基础上,我们选择了其中一种模型——AdaRank模型来进行候选查询扩展词的排序,该模型的参数可完全通过训练获得,解决了原有查询扩展模型参数需要通过穷举法调试得出的问题,最终实现了一种基于AdaRank的查询扩展模型。
最后,我们通过实验证明了VECO算法是一种有效的获得有效扩展查询词的算法,使用此算法获得了与用户查询相关的查询扩展词,并在此基础上,实现了基于AdaRank的查询扩展模型,并通过实验验证了该算法在多个数据集上的有效性,以及可扩展性。