论文部分内容阅读
随着互联网技术的迅速发展,Internet为人们提供了极其丰富的信息资源,在这些海量、异构的Web信息资源中蕴含着具有巨大潜在价值的知识。如何从这些海量的信息中检索出所需要的信息已成为一个非常重要的研究课题。搜索引擎成为人们快速获得信息的首选工具,在一定程度上可以满足用户信息需求。但是,搜索引擎上大多数的查询是短小且意义不明确的,即使同样的查询对于不同时期、不同背景、不同领域的用户,他们搜索意图是不同的。目前,现有的大多数搜索引擎都不能充分、有效地利用用户自身的浏览信息,基本上都采用“一个搜索适用所有用户”的搜索模式,不具有识别用户兴趣、偏好的能力,以至于不同的用户只要在同一个搜索引擎上使用同一关键词查询,所得到的查询结果都是一样的,这显然不能满足各种用户的需求。同时,查询返回的结果往往数以万计,内容良莠不齐,使得用户在寻找自己真正需要的信息时犹如大海捞针。个性化搜索引擎针对不同用户,提供个性化服务,已成为信息检索领域的研究热点之一。本文有针对性地重点展开基于用户兴趣挖掘的搜索引擎个性化研究,通过为大型Web搜索引擎增添个性化插件的方式来满足用户对搜索引擎个性化服务的需要。 本文研究的内容主要包括以下几个方面: 1基于用户兴趣挖掘的用户兴趣模型的构建:通过分析用户兴趣的来源,提出用户兴趣建模工作将基于用户浏览的兴趣网页而非浏览的所有网页,自动过滤掉无关的噪声网页;从自动获取的用户浏览过的兴趣网页及其浏览行为等兴趣信息中归纳构建出可计算的层次加权关键词矢量模型来表示用户兴趣类别偏好,提出了改进的类兴趣度权值度量方法。 2基于用户兴趣模型的个性化查询扩展:结合用户兴趣模型中各个兴趣点的类兴趣度权值和文本描述信息,本文介绍了用户初始查询到最相关兴趣类的映射方法;在余弦相似度方法基础上,通过引入用户历史查询词词典技术,本文提出了一种基于用户历史兴趣网页和历史查询词相结合的个性化查询扩展算法。当用户在搜索引擎上输入查询词时,算法能根据学习到的当前用户兴趣模型动态判定用户潜在兴趣和计算词间相关度,并将恰当的扩展查询词组提交给搜索引擎,从而实现不同用户输入同一查询词能返回不同检索结果的目的。 最后,设计开发了验证本文研究内容的个性化查询扩展插件系统PSE,并结合Google和百度分别做了个性化查询扩展对比实验,通过试验证明了本文工作的可行性和有效性。实验结果表明,本文提出的方法既利用了当前主流Web搜索引擎在响应速度和查全率上的优势又弥补了其在个性化和查准率方面的不足,在信息检索领域具有一定的学术参考和应用价值。