论文部分内容阅读
随着信息技术的迅猛发展,信息爆炸使得人们越来越难以从大量内容中找到需要的信息。为解决信息过载问题,学术界及业界都进行了各种探索。推荐系统便是新兴的被发展用来减轻用户筛选负担、为用户提供个性化内容推荐的有力工具。目前,推荐系统已是各种互联网应用的重要组成部分。另外,随着数据和用户的不断增加,推荐系统面临着分析海量数据和生成精确推荐的双重挑战。Hadoop是一种主流的云计算平台,它为大数据的存储和并行处理提供了便利。其MapReduce编程框架是大规模机器学习的重要工具。机器学习是一门对数据构建概率模型并运用模型和统计学方法对数据进行分析与预测的学科。这些新兴技术的出现为设计推荐系统提供了新的思路。论文以Hadoop为技术背景,对分布式并行计算做了研究,同时运用机器学习的有关理论和算法,围绕推荐问题展开如下三方面的工作:第一,分析推荐领域的经典算法、相关技术以及它们在扩展性上遇到的困难;第二,提出一种基于线性回归模型的特征学习算法,该算法能从用户对产品的历史评分中获得产品属性和用户属性的特征向量,进而用它们预测未知评分,产生推荐;第三,由于特征学习推荐算法需要对每个产品和用户单独建立高维特征向量,因此随着产品和用户的增加,算法将需要训练数以亿计的参数,本文引入MapReduce技术,在Hadoop平台上对算法做并行化改进。本文提出的特征学习算法应用在MovieLens数据集上时,相比较传统基于相似度的协同过滤算法预测精度更高,表明使用用户特征向量和内容特征向量作线性拟合,是产生评分预测的有效方法。随着特征向量维度的增加,预测结果总体愈加精确。在Hadoop平台上,重新设计的数据集格式可以配合MapReduce计算框架,验证了算法在云平台上进行并行计算的可行性,从而使算法在处理大数据时将得到效率提升。