论文部分内容阅读
如今互联网已经步入人们生活的每一个角落。互联网上的信息量越来越大,增长速度也越来越快。在互联网的海量信息面前,如何从中获取人们所需要的信息已经成为信息检索领域的热点。目前,主流的搜索引擎的查询方式仍然是基于关键字匹配。面对海量信息,仅仅基于关键字匹配的查询方法很难给出用户满意的查询结果,因此查询扩展技术应运而生。目前,查询扩展已经有了一定的发展。本文在分析以往算法不足的基础上,将众包思想与用户查询日志相结合,提出了基于众包思想的查询扩展算法。实验表明,新算法对查询效果有明显的改善。论文的主要工作如下:首先,本文介绍了查询扩展的研究背景、查询扩展的发展概况并简单描述了本文的研究和工作内容。其次,本文介绍了信息检索与查询扩展相关理论,并且详细研究了目前主流的查询扩展算法并分析其优缺点。再次,本文还简要介绍了众包思想及其实现算法——“最大期望算法(Expectation Maximization,EM)"的原理,并对其进行改进,为众包思想与用户查询日志的结合提供准备。本文对用户查询日志进行了详尽的统计分析,主要包括用户查询词特征分析、查询过程中的会话特征分析和用户点击分析。这些分析既是查询扩展的原因,也是查询扩展的基础。本文利用搜狗公司提供的数据集,对其进行了一些预处理后利用Indri搜索引擎建立起了一个与用户查询日志相匹配的简易搜索引擎平台,用于进行实验。本文提出了基于众包的查询扩展算法。将众包思想引入查询扩展,根据用户查询日志的特点,将用户的查询过程转化为一个众包过程。随后,本文利用改进的EM算法对相关文档进行重排序,并在重排序后的文档中筛选扩展词。本文在自建的搜索平台中进行了实验,实验结果表明,本文提出的算法与一些传统的查询扩展算法相比在P@20的评价标准上对查询效果有明显的改善。