论文部分内容阅读
随着信息技术的飞速发展以及人们对信息需求的日益迫切,搜索引擎已成为人们在网上搜索相关信息的一个必不可少的工具。在使用搜索引擎中,如何通过输入好的查询表达式来获得好的搜索结果是困扰网民的一个问题。查询扩展具有增强搜索引擎系统的易用性和查准率的作用。本文从创新性和实用性出发,重点对查询扩展子系统相关技术进行研究并进行了相应设计,具有积极的现实意义。
本文包括以下四个方面的主要内容:
(1)本文根据查询扩展词项的来源不同进行分类论述,对查询扩展相关技术进行了深入的分析,并总结了各种查询扩展方法的特点、优点和不足之处。
(2)在深入研究基于局部文档集的查询扩展和基于全局文档集的查询扩展的基础上,为了进一步提高检索性能,研究一种基于局部文档集的方法和基于全局短语挖掘相混合的查询扩展。实验表明,基于文档集混合的查询扩展在检索性能上得到进一步提高。
(3)在深入分析查询日志中的用户行为特点的基础上,本文研究一种基于查询日志的查询式提取方法以及一种基于查询日志的频繁查询项集挖掘方法。为了吸收基于文档集方法和基于查询日志方法的优点,研究并提出一种基于查询日志与基于文档集相混合的查询扩展方法。实验表明,基于文档集方法与基于查询日志方法混合的查询扩展在查准率方面要好于基于文档集的方法或基于查询日志的方法。
(4)为了验证本文的研究,设计了基于Lucene+Nutch的搜索引擎系统以及查询扩展子系统。为了使系统支持中文搜索和查询扩展子系统的设计,对Nutch进行了改进。