论文部分内容阅读
随着计算机技术、网络技术的快速发展,电商网站、社交门户以及医疗、教育、公共平台等领域的智能化应用等信息时代产物已深入人们的日常生活,影响了人们的行为习惯和思维方式;同时,随之产生的海量数据也将人们置身于信息爆炸的大数据时代。为了缓解大数据带来的信息盲目性,兴趣信息的难获取问题,个性化推荐成为过滤无关信息的有效手段。协同过滤是目前推荐服务中应用最成功的技术之一,该算法仅依赖于用户对项目的评分,与用户、项目的本身属性无关,能够跨领域运作,具有良好的通用性。然而,大数据时代的来临,加剧了评分矩阵的稀疏性,负面影响推荐效果。在此背景下,本文引入平均相似度的概念,综合用户、项目,提出了改进算法ASUCF,并通过实验验证改进算法的预测准确度。同时,面对大数据,如何快速有效地实现它们的并行化处理,也成为了学术界研究的一个热点。目前,对于并行计算的处理框架有很多种,而Google公司提出的云计算概念和MapReduce并行框架以其可扩展和高易用性,在大数据处理中得到了广泛的应用。Hadoop作为开源的云计算平台,实现了Google云计算的功能,被研究者们广泛使用。本文在结合推荐技术以及云计算技术的基础上,提出并设计了改进的协同过滤算法ASUCF及其MapReduce并行处理,从准确度和计算效率上提高个性化推荐服务的质量。本文的研究工作主要如下:(1)研究了常见推荐技术的原理、计算步骤、特点以及应用举例,着重分析协同过滤技术的算法思想、推荐步骤、常用检验标准以及协同过滤的分类,Memory-based CF和Model-based CF的推荐过程、特点以及大数据环境下推荐系统的所处层面等。(2)针对CF技术依赖的评分矩阵稀疏性问题,引入平均相似度概念,提出综合用户、项目的ASUCF算法,分析其计算方法,并通过实验设计,验证ASUCF算法在准确度上的提高。(3)结合云计算开源平台Hadoop中的MapReduce编程框架,分析ASUCF算法的并行化过程。(4)针对计算效率问题,结合Hadoop平台,研究Mahout中Taste推荐引擎,设计出适应MapReduce编程模型的ASUCF算法过程,并通过实验设计,验证计算效率的提高。