基于查询日志的查询扩展研究

来源 :北京邮电大学 | 被引量 : 6次 | 上传用户:eimayao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今互联网已经步入人们生活的每一个角落。互联网上的信息量越来越大,增长速度也越来越快。在互联网的海量信息面前,如何从中获取人们所需要的信息已经成为信息检索领域的热点。目前,主流的搜索引擎的查询方式仍然是基于关键字匹配。面对海量信息,仅仅基于关键字匹配的查询方法很难给出用户满意的查询结果,因此查询扩展技术应运而生。目前,查询扩展已经有了一定的发展。本文在分析以往算法不足的基础上,将众包思想与用户查询日志相结合,提出了基于众包思想的查询扩展算法。实验表明,新算法对查询效果有明显的改善。论文的主要工作如下:首先,本文介绍了查询扩展的研究背景、查询扩展的发展概况并简单描述了本文的研究和工作内容。其次,本文介绍了信息检索与查询扩展相关理论,并且详细研究了目前主流的查询扩展算法并分析其优缺点。再次,本文还简要介绍了众包思想及其实现算法——“最大期望算法(Expectation Maximization,EM)"的原理,并对其进行改进,为众包思想与用户查询日志的结合提供准备。本文对用户查询日志进行了详尽的统计分析,主要包括用户查询词特征分析、查询过程中的会话特征分析和用户点击分析。这些分析既是查询扩展的原因,也是查询扩展的基础。本文利用搜狗公司提供的数据集,对其进行了一些预处理后利用Indri搜索引擎建立起了一个与用户查询日志相匹配的简易搜索引擎平台,用于进行实验。本文提出了基于众包的查询扩展算法。将众包思想引入查询扩展,根据用户查询日志的特点,将用户的查询过程转化为一个众包过程。随后,本文利用改进的EM算法对相关文档进行重排序,并在重排序后的文档中筛选扩展词。本文在自建的搜索平台中进行了实验,实验结果表明,本文提出的算法与一些传统的查询扩展算法相比在P@20的评价标准上对查询效果有明显的改善。
其他文献
【正】 农药是农业增产的重要因素之一,特别是第二次世界大战后,农业生产对农药的依赖性不断增加。目前在防治病虫草及鼠害的各种措施中,农药仍占重要地位。 当前,世界农药年
要克服这些传统制约、促进澳门服务型行政文化的发展,就要摒弃传统的政治文化,建立"以顾客为导向"的政府文化;要打破传统单一的经济发展模式,建立多元经济;要深化行政体制改
目的:探讨推按运经仪结合中药、耳穴贴压治疗胆石症的有效方法.方法:应用推按运经仪、耳穴贴压、中药治疗胆石症252例,其中胆囊结石83例,肝外胆管结石30例,肝内胆管结石10例,
在医院感染的控制中,护理部门承担着重要的责任,由于护理部门几乎管理着与病人密切接触的一切环境和大部分治疗措施,且预防医院感染的基本手段,如消毒、灭菌、隔离等技术,都
本文对电视差转台微机控制系统进行了讨论。系统硬件由APPLEⅡ主机与自制控制板组成,软件采用机器语言和高级语言联合编写,通过软硬件优化设计,在满足系统性能要求的前提下,可以降低造