论文部分内容阅读
随着大数据时代的到来,数据呈爆发式增长,如何从海量数据中深度挖掘隐藏的价值是一项研究意义深远的课题。在十三五规划中,国家将大数据分析应用列入国家战略层面,数据即是价值。在大数据背景下,电子商务进入了更加多元化的发展时代,网站后台可以挖掘用户的消费或是浏览记录,建立用户消费偏好模型,结合推荐技术将优良的商品推荐给客户,从而减少消费者搜寻自己真正喜爱商品的时间和精力,最终缓解信息过载问题。在电子商务类网站中,每天都会产生海量的数据,推荐系统需要挖掘分析的数据十分庞大。如何快速、准确的响应用户需求,这就要求推荐系统具有强大的数据挖掘分析能力。本文结合数据挖掘的经典算法——协同过滤算法,深入研究了基于用户和基于项目的推荐算法,并针对这些算法存在的不足做了改进,实现了组合推荐算法。主要研究工作包括以下几个方面:(1)研究了数据挖掘技术的概念、分类、数据挖掘的操作过程,分析了基于数据挖掘的Web数据挖掘的概要、种类与数据源,深入研究了协同过滤技术的基本概念、优势以及协同过滤的原理及操作过程。(2)详细研究基于用户的协同过滤算法(User-based CF)和基于项目的协同过滤算法(Item-based CF),这两种算法在推荐系统中使用最早也是应用较为成功的推荐算法。在电子商务类网站中,User-based CF算法主要用于分析网站中用户之间的关系,通过挖掘分析用户之间的相似度来进行商品推荐;Item-based CF算法可用于分析用户的历史消费记录。(3)针对单一推荐算法的性能缺陷,本文研究了矩阵分解改进方法、基于内容的优化方法和三种混合推荐技术,包括多段组合混合推荐框架,加权型混合推荐技术以及瀑布型混合推荐技术。通过优化这几种混合推荐技术,可以有效的解决冷启动、稀疏性等问题。本论文实现了基于传统协同过滤算法、基于内容的混合推荐。(4)研究了大数据处理框架Spark分布式计算框架,利用Spark的编程模型设计并实现了改进后的协同过滤算法——混合推荐算法,结合Spark的并行化计算优势,提高算法的推荐效率。(5)利用推荐系统的多项评价指标,将数据集划分为训练集和测试集,设计了推荐系统的测评实验,并对实验结果进行了详细分析。