论文部分内容阅读
传统信息检索在一定程度上可以满足用户信息需求,但是,同样的查询对于不同时期、不同背景、不同领域的用户,他们搜索意图和目的是不同的。个性化搜索引擎针对不同用户,提供个性化服务,个性化搜索是一个重要的研究领域。如何有效识别用户兴趣偏好类别是一个具有挑战性的研究课题;能够有效识别用户兴趣偏好是个性化服务的关键技术;用户兴趣偏好挖掘需要解决的问题包括收集用户信息、如何收集这些信息、收集到信息如何组织、表示和存储;如何在收集到的信息基础上,采用合理的技术和模型进行分析和处理以获取用户检索偏好;用户的信息和兴趣如何自适应的跟踪、学习与更新等问题。本文提出了一种用户兴趣模型来学习用户的兴趣偏好算法,通过用户搜索历史分析用户兴趣类别偏好,该算法的主要特点是不仅可以有效识别普通类别用户兴趣偏好,同时可以有效识别兼类的用户兴趣偏好。本文对个性化搜索中用户兴趣挖掘技术方法进行研究,提出基于查询扩展技术和搜索历史自动挖掘用户兴趣方法。本文的算法思想是用户输入查询串到搜索引擎,由于查询能够表明用户搜索的意图,那么,本文通过查询进行挖掘用户兴趣类别,但是有些查询串较短,或者出现查询词歧义等问题。考虑到用户通过搜索引擎输入查询会返回一系列文档内容,将相关文档通过文本分类技术进行分类,有效识别文档的类别。然后,通过文档关系将查询映射到对应类别体系,进而识别用户兴趣类别偏好。进而能够更清晰识别用户兴趣类别偏好,同时通过查询扩展技术有效解决查询短和查询兴趣类别属于兼类的问题。由于用户兴趣随时间是变化的,用户兴趣模型的具有高效的更新学习机制,动态跟踪了用户兴趣变化趋势。用户兴趣模型的输入是用户查询及其浏览的相关文档,输出是用户兴趣类别,即用户兴趣类别偏好程度,简称兴趣度。该用户模型优点是克服了数据稀疏、类别偏差、扩展性差等缺点。本文的研究方法为个性化搜索排序以及信息推荐等技术提供了良好基础。