论文部分内容阅读
随着互联网和电子商务的发展,个性化推荐技术逐渐成为一种新型的内容提供方式,得到越来越多研究者的关注。目前,几乎所有大型电子商务系统、网络流媒体等都在使用各种形式的推荐系统,它的出现有效的解决了用户如何从海量数据中获取相关信息这一难题。然而,用户在不同的时间段会有不同的兴趣,随时间而变化,如何通过捕捉用户的兴趣变化来提高推荐质量成为了当今推荐系统的挑战;同时由于信息爆炸产生的大量数据已经超出了单机环境的处理极限,系统的可扩展性面临巨大压力。为了解决时间因素带来的影响,本文提出了用户与项目之间的关联度随时间动态改变的相似度计算方法,并结合聚类算法充分挖掘用户的兴趣;同时为提高推荐效率,解决系统扩展性问题,提出了基于大数据架构的分布式解决方案,以理论研究为基础,从推荐系统架构的角度,设计了能根据实时获取用户行为信息并动态更新用户兴趣模型的推荐系统架构。 本研究主要内容包括:⑴在技术综述中首先对推荐系统及相关的推荐算法进行简要分析;然后研究了Lambda大数据架构,Hadoop分布式处理框架以及Storm流式处理框架。对于Hadoop框架着重分析了HDFS,MapReduce这两个组件,了解了它们的运行机制以及分布式编程原理,为后续工作奠定了基础。⑵研究了基于聚类和时间因素的动态推荐算法。利用用户行为数据中的时间信息对传统推荐算法中进行改进,提出新的相似度计算方法;同时引入聚类算法,充分挖掘用户的兴趣,提高推荐准确率。⑶针对单机环境下处理海量数据效率低下的问题,提出基于分布式处理框架的解决方案;同时针对推荐系统实时性比较低的问题,采用基于内存的流式处理框架。⑷将动态推荐算法并行化,实现了基于大数据的动态推荐系统。实验结果验证了该系统在可扩展性以及实时性方面的性能。