论文部分内容阅读
随着信息技术和互联网的发展,人们从信息匮乏时代来到了信息过载时代,用户很难从海量的信息中快速获得对自己有用的信息,对信息的利用率反而下降了。因此过滤信息的能力成为了衡量一个信息系统好坏的重要指标。一个具好的信息系统,会从海量信息中过滤出用户最关注的信息,这将大大增加系统工作的效率,并节省用户寻找信息的时间。推荐系统正是在这种背景下应运而生,作为传统搜索引擎的一个补充,在解决信息过载问题中发挥着重要的作用。以某旅游垂直搜索网站为实例展开面向酒店搜索的推荐技术研究。在深入分析了各种常用推荐系统后,结合酒店搜索的特点,设计了一种基于酒店相似度的酒店推荐系统。系统的设计思路是根据用户最近的访问酒店推测出用户的兴趣,然后推荐相似的酒店。系统包括离线模块和线上模块,离线模块根据点击日志和酒店信息计算酒店相似性表,线上模块根据用户的最近访问历史计算出推荐结果并负责收集用户反馈和记录系统状态。为了对系统进行离线评测和研究,同时设计了一种基于用户访问时间序列的推荐评测系统,并定义了命中率和命中率精度两个精确度指标作为主要的评测指标。该评测系统把每个用户的点击详情日志看成访问序列,用最近访问历史、当前访问酒店和目标酒店组成的时间窗口在访问序列上滑动来模拟回放用户的访问和推荐过程,并进行相关统计,计算出评测指标。该评测系统被用来研究基于内容、协同过滤等多种相似性算法对系统的影响,并探究影响推荐效果的各种因素和改进系统的方法。经过研究,发现使用基于协同过滤的Amazon相似性算法和点击详情转化率相似性算法的效果最好,归一化相似性是必要的,应该经常更新酒店相似性表。使用最佳训练集长度、过滤坏数据、组合使用多推荐引擎可以有效改进系统效果。综合使用这些改进方法之后,相对于原始系统,命中率提高了7%,命中率精度提高了15%。