论文部分内容阅读
个性化推荐系统是针对每个用户的不同需求,提供满足他们偏好和兴趣的信息,在应用初期取到了不错的效果,但随着大数据时代的来临,带来了信息超载问题,传统的个性化推荐系统也面临着诸多挑战,如推荐时间过长、精准度不高和扩展比较困难等问题。除了单纯的寻找更加高效的推荐算法,推荐系统服务器性能提升也是要考虑的问题。为了应对海量数据处理提供高效的服务,已经提出了若干基于分布式的系统解决方案。而Hadoop正是这样一个高效的、可拓展的分布式计算平台,因此可以将推荐系统应用于Hadoop中,以应对大数据提供高质量的推荐服务。本文的主要研究工作如下:1、本文对个性化推荐系统的结构、主流推荐算法和常用评价指标进行分析,结合目前面临的挑战引出了基于Hadoop构建个性化推荐系统的意义。然后对Hadoop的关键技术进行了研究。2、具体研究了基于用户的和基于项目两种协同过滤算法,然后分析了传统协同过滤算法存在的问题,提出基于矩阵填充和时间上下文的推荐算法。针对数据稀疏性问题,提出采用矩阵填充的手段进行缓解;考虑到用户兴趣随着时间推移而慢慢发生变化,引入时间上下文因素,进行预测评分时,加入时间函数权重,突出用户最近行为对用户兴趣变化的影响。最后结合Hadoop平台特点,通过MapReduce编程模型对该算法实现并行化。3、对本文提出的改进算法进行实验,测试三种相似度计算方法的优劣,然后比较在不同邻居数和数据稀疏性条件下三种算法的性能差异。4、针对于提出的算法设计并实现了基于Hadoop的个性化电影推荐原型系统。详细的描述了每个功能模块的作用,最后介绍了该原型系统的推荐流程。本文提出的基于矩阵填充和时间上下文的推荐算法可以提高推荐质量,在一定程度上缓解数据稀疏性问题,并行化的算法在Hadoop集群中运行时,面对大规模数据集也表现出良好的性能。