论文部分内容阅读
近几年,随着中国互联网的崛起,网络应用越来越多样化,大量的产品和信息同时呈现在用户面前,导致了信息过载现象的出现,个性化推荐是解决该问题的重要方法。协同过滤推荐方法是当前在实际系统中应用最多的个性化推荐方法,它基于群体的偏好来为用户提供推荐。当前对协同过滤方法的研究大多侧重于单机算法的设计与优化,旨在提高推荐的精准度。但是面对日益增多的用户、急剧增加的数据量,通常的算法都会遇到严重的计算扩展瓶颈,这使得协同推荐方法难以在实时性和可用性要求高的大型线上系统中使用。因此,应考虑使用并行方法改进协同推荐算法应对大规模数据的能力。本文对基于Hadoop并行计算框架的协同过滤推荐系统的设计与实现进行了研究。首先对协同推荐系统和Hadoop平台的相关概念进行了介绍,包括推荐系统的构成、常见的协同推荐算法、以及Hadoop存储和计算并行化的原理;其次介绍了推荐数据预处理流程的并行设计,阐述了基于用户、基于物品和基于主成因分析的协同方法的并行实现方案;再次,详细介绍了推荐结果评估方法的并行方案,并对并行协同推荐算法的性能和推荐质量进行了验证;最后,结合提出的基于Hadoop的协同过滤推荐算法,设计并实现了一种在线电影协同推荐系统,用以模拟并行协同推荐方法在实际场景中的应用方法,并从云平台优化角度进一步提升协同过滤推荐系统的性能.。实验表明,将Hadoop技术应用于协同推荐推荐系统的实现,提升了协同推荐方法应对大规模数据的能力;对推荐系统云平台层的参数优化,更进一步提升了推荐系统的离线处理性能。