论文部分内容阅读
随着互联网的日益发展,手机、平板电脑等智能终端的出现,人们在工作和生活中越来越依赖网络,同时也产生大量的数据文件,对于如此海量的数据,加之用户有时不能清晰的表达查询意图,使得用户很难快速、准确的找出所需要的信息,为此学者们进行了许多相关的研究,其中有效的技术方案主要包括搜索引擎中的查询推荐算法和基于偏好的推荐系统。查询推荐算法通过构造一组与原查询词相关的查询词帮助用户明确查询意图。推荐系统以用户行为、偏好作为依据,主动为用户推荐符合其偏好的信息。由于用户数量、数据规模的快速增长,而传统推荐算法以单机运行为主,计算复杂度普遍较高,计算难度大,已经不能满足海量数据推荐计算的需求,产生了推荐时间缓慢、准确率下降等一系列问题。为了更好的解决推荐算法的可扩展性、准确性问题,本文在深入研究HDFS分布式系统和MapReduce编程思想的基础上,针对近年来提出的网络推荐算法,分别提出了查询推荐算法和基于偏好的协同过滤推荐算法在MapReduce编程模型下的分布式并行化算法,并设计和实现了一个基于Hadoop的电影推荐原型系统。主要工作内容如下:首先,介绍了推荐算法和云计算方面国内外的研究现状,然后重点阐述了推荐系统及主流协同过滤算法,具体分析了Hadoop相关技术,为基于Hadoop的并行化算法提供了理论依据。然后,针对搜索引擎中的查询推荐算法,提出了基于Hadoop的最小生成树聚类算法来实现查询推荐,通过一系列测试和结果分析验证了算法在集群上具有良好的并行性和扩展性。在基于偏好的推荐系统方面,提出了基于奇异值分解的协同过滤算法并行化改进与优化方案,通过实验证明改进方法可以进一步提高算法的效率和准确率。最后,在MovieLens数据集基础上,结合本文提出的分布式推荐算法,设计、实现和部署了基于Hadoop的电影推荐原型系统,通过测试系统能够正常运行和使用,充分体现了云计算与推荐算法结合的优势。