论文部分内容阅读
随着互联网规模的爆炸式增长,搜索引擎已经成为互联网用户进行信息检索和过滤的主要工具,其重要地位日益明显。然而,搜索引擎在对海量的互联网信息进行检索的时候,尚不能很好的满足用户的检索需求,时常返回与用户检索意图无关的检索记录,致使检索效率较低。本文结合中文检索中检索词本身及其使用方式的问题,阐述了基于查询扩展的信息检索技术的意义。随后,本文结合用户的搜索行为特征,依据检索词之间的相似度关系对搜索日志的分析过程进行建模,并将日志分析的结果应用于本文改进的查询扩展模型中,以期解决检索词简短、语义模糊时,检索结果质量较差的问题。主要包括以下三个方面:1、基于检索行为的日志分析模型。由于传统HTTP会话模型时间跨度较大,一次会话中往往包含多个检索主题。本文从用户的检索行为切入分析,依据检索词之间的相似度对HTTP会话进行切分,并根据本文定义的会话相似度进行会话聚合。随后,通过对实际的搜索日志进行分析,证明了基于检索行为的日志分析模型更适合搜索日志中潜在用户反馈的提取。2、查询扩展方法研究。本文首先讨论并对比当前主要的查询扩展方法,进而考虑到历史检索词是用户检索意图的体现,网页文档的索引用词是搜索引擎对网页文档的定位,本文改进的查询扩展方法将二者依照词频概率进行关联,关联后的结果集作为扩展词来源。同时,文中还分析了扩展词之间的权重分配问题。实验证明文中的查询扩展方法较其它方法有着更高的查准率。3、基于Nutch的原型系统设计与实现。本文在Apache软件基金会开源项目Nutch的基础上,实现了查询扩展模块,改进了Nutch的分词器。查询扩展模块的主要任务是依据扩展词词典对原始检索词进行扩展;分词器主要改进了Nutch默认的一元分词法,使之更好的支持中文检索。最后,通过实验对比了原型系统和Nutch的分词效果以及首页命中率。本文以实际的搜索日志数据为基础,以提高搜索引擎的检索质量为目标。通过对HTTP会话的切分,过滤搜索日志中的无关数据,从而对搜索日志中潜在的用户反馈信息进行挖掘;在研究了当前主要的查询扩展方法后,对搜索日志中的历史检索词和检索结果的索引用词进行关联,并将关联结果用于查询扩展中。实验证实本文改进的方法取得了较好的效果。本文的最后进行了论文工作的总结,以及后续研究重点的分析。