论文部分内容阅读
近年来,网络技术和电子商务快速发展,智能硬件越来越廉价,人们的身边中充斥着各种智能设备和网络应用,互联网已经融入了人们的日常生活当中,大量信息被上传到了互联网上。目前人们已经走入了信息超载的时代,互联网中的信息处于大爆炸的状态并且规模还在不断的膨胀[4],在这个时代,人们每天面对大量的信息,而在这些信息中充斥着各种对人们而言价值极低的广告、推广等信息,作为信息消费者的用户,很难从海量的信息中找到自己可能喜欢的信息,同时作为信息提供者的企业、团体,很难将自己生产的信息呈现在可能喜欢这些信息的用户面前[10]。为了使信息消费者能够便利地,准确地获取想要的信息,使信息提供者能准确地、适时地呈现自己生产的信息,解决信息超载问题,推荐系统应运而生。推荐系统通过主动的获取用户的行为数据,如用户的历史浏览记录、打分情况、购物车、收藏夹、搜索关键字等行为信息,一方面预测用户的喜好,给用户推荐他们可能喜欢的信息,另一方面让信息能够展现在可能喜欢它们的用户面前[10]。目前主要的推荐算法有四种:基于内容的推荐算法(Content-based Recommendations,CB)、协同过滤推荐算法(Collaborative Filtering Recommendations,CF)、基于图结构的推荐算法(graph-based Recommendations,GB)和混合推荐算法(Hybrid recommendations,HR),除了上述主流的推荐算法外还有很多种其他的推荐算法,例如基于关联规则的推荐算法、基于知识的推荐算法等。但是,目前的推荐算法在推荐精度、可扩展性、冷启动、数据稀疏性以及用户“兴趣漂移”问题等方面还存在不足。本文从实际出发,重点研究的内容是降低用户“兴趣漂移”问题对于推荐系统的推荐精度的影响和解决新用户、新物品的冷启动问题并将改进的推荐算法中最耗时的计算过程移植到集群中以提高推荐系统的效率。针对用户“兴趣漂移”的问题,本文改进了基于加权二部图(Weighted Network-Based Inference,WNBI)的推荐算法,提出了基于遗忘机制与加权二部图(Forgetting mechanism and Weighted Network-Based Inference,FWNBI)的推荐算法,该推荐算法通过引入遗忘机制并利用遗忘因子作为二部图的权值,从而降低用户“兴趣漂移”问题对于推荐精度的影响,在Movielens数据集上的实验对比分析表明FWNBI推荐算法能够有效的提高推荐的精度和推荐的质量,推荐精度的提升从侧面反映出改进的推荐算法降低了用户“兴趣漂移”问题对推荐精度的影响;针对新用户、新物品冷启动问题,本文在FWNBI推荐结果的基础上综合考虑了CB推荐算法的推荐结果,形成了基于遗忘机制与加权二部图的混合推荐算法(Hybrid Forgetting mechanism and Weighted Network-Based Inference,HFWNBI);针对推荐系统的效率问题,本文将推荐算法中时间复杂度较高的计算过程移植到Spark集群中,通过与单机条件下算法执行时间的对比表明算法中时间复杂度较高的计算过程在集群上的执行效率明显优于在单机条件下的执行效率。