论文部分内容阅读
搜索引擎是互联网用户最常用的信息查询工具。目前主流的搜索引擎并没有明确区分不同用户的查询意图,而不同用户即使输入相同的查询词,其查询需求也是有差别的。个性化信息检索技术就是针对以上问题提出的。个性化信息检索通过收集和分析个人信息和查询的上下文,而不是仅仅依靠检索词来判断用户的真实需求,因而能够根据用户的不同需求而返回个性化的检索结果以提高检索精度本文在对个性化信息检索相关技术进行了较为全面、深入的分析基础上,分别研究短期上下文和长期上下文的个性化信息,以及如何根据基于上下文的个性化信息进行个性化模型建模,从而改善信息检索系统查询性能。最后搭建了一个基于上下文的个性化检索原型系统。在研究短期上下文的个性化信息方面,为了改善信息检索系统对Ad hoc请求只针对查询词的缺点,首先给出了基于上下文的个性化检索的形式化描述,其次设计了短期上下文的个性化检索算法。该算法以单元统计语言模型为基础,结合隐性相关反馈技术,克服了用户Ad hoc请求时仅依靠单独查询词的局限性。通过实验证明该算法使查询精度平均提高50%。在研究长期上下文的个性化信息方面,为了克服在传统信息检索系统中,无法根据个人长期行为特点进行响应的缺点,本文以北大网络中心对天网搜索引擎的用户行为分析为基础,设计了长期上下文的个性化检索算法。该算法通过分析用户行为日志,建立起长期个性化模型,对当前查询起到改善作用。通过实验证明了该方法的有效性和较好的抗噪声性。本文设计并实现了一个基于火狐浏览器的个性化检索系统。该系统以基于短期上下文的个性化检索算法为算法基础,利用Lemur语言模型工具,以搜狗实验室公开的全网新闻数据作为语料集。同时利用该系统作为今后研究的实验平台,搜集真实用户行为日志,为今后研究工作奠定基础。