基于Spark平台的协同过滤推荐算法的研究与实现

来源 :大连交通大学 | 被引量 : 0次 | 上传用户：szzc2001

【摘要】

：

当今社会,互联网技术获得前所未有的高速发展,促使信息化技术遍及社会生活中每一个角落。各种信息数据也在持续不断地增长,而从这些海量的数据中抓取有效的信息已经成为当下

【作者】

：

王晓亮

【出处】

：

大连交通大学

【发表日期】

：

2017年01期

【关键词】

：

协同过滤推荐相似度算法 Slope One算法 Spark Hadoop

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

当今社会,互联网技术获得前所未有的高速发展,促使信息化技术遍及社会生活中每一个角落。各种信息数据也在持续不断地增长,而从这些海量的数据中抓取有效的信息已经成为当下迫切需要解决的问题。解决这种问题的有效方法之一是使用推荐系统,既对用户喜欢的信息和历史搜索等信息进行分析,创建对应的模型,从而为用户提供个性化的推荐系统。然而,经过实际的调查显示,现在大部分应用于推荐系统中的协同过滤算法,尚存在着一些推荐信息不准确的问题。例如,将用户和物品的数量变得越大,算法无法准确处理大量的数据,推荐内容的准确率大大降低,导致推荐系统无法为用户提供个性化的信息推荐服务。本文将协同过滤推荐算法做为此次研究的主要对象,通过对各种算法优缺点的分析,提出综合考虑物品和Slope One算法这两中因素,将这两种因素作为条件对用户的喜好进行预测打分,然后推荐给用户。首先,在整体的用户集合和物品集合中,选取出其中一部分的用户和物品作为目标,利用Slope One算法预测出这部分用户会对物品会有怎样的评分,得出评分的结果之后,就可以对评分的矩阵进行填充,这样做的好处是,一方面可以有效地避免因数据系稀疏性而带来的预测不准确问题,另一方面该评分预测结果是得出最终结果的重要参考之一。然后,将原来的数据集和预测部分的数据集综合起来考虑,按照一定的比例将这两种数据集结合在一起,从而可以形成新数据集之后,就可以计算物品之间的相似度和用户对物品平均偏好差异值矩阵。其次,在预测用户对物品的评分时,将刚刚计算出来的物品间相似度设置为Slope One算法的权值。最后,对参数进行训练,得到最终的评分预测结果。为了进一步优化该算法,以提升算法在处理大数据方面的能力,本文将Slope One相似度算法和改进后的协同过滤推荐算法在Spark平台上给予实现。并且,为了验证算法的预测是否准确,本文也将改进以后的协同过滤推荐算法在Hadoop平台上给予实现。经过在MovieLens标准数据集上的反复实验,本文提出的将Slope One和物品相结合使用的协同过滤算法能够有效提高物品推荐的准确度。并且,协同过滤推荐算法在处理海量数据的能力方面,Spark与Hadoop平台相比,运行效率更高,预测的更精准。

其他文献

班主任德育工作的实践探索

本文以自身班主任工作实践为例,重在探索让学生学会评价自己的方式,通过这些有效的方式来更好地促进中职学生的学习,正确引导孩子们在人生关键成长阶段找对自己的方向,明确自

期刊

实践探索德育工作

2006年上半年中国稀土产品出口态势分析

2005年下半年以来,中国稀土产业经过政府的大力整顿和取消出口退税后,稀土产品产量的无序增长和出口的盲目扩张终于得到了有效控制。在这种情况下,世界经济的平稳增长和中国

期刊

2007年上半年我国硅业运行情况

我国硅业,特别是其中的基础部分工业硅行业,2007年上半年的运行情况基本良好。大致情况如下:1.盲目发展势头受到一定遏制,但某些根本问题仍没解决 China’s silicon industr

期刊

环保沥青再出发

项目名称温拌沥青混合料应用技术研究获奖等级一等奖目前,我国公路和城市道路的路面80%以上为沥青路面。在这些沥青路面中,95%以上采用热拌沥青混合料。热拌沥青混合料施工时

期刊

温拌沥青混合料技术应用技术研究混合料温拌剂环保沥青

支气管肺癌脑转移并脑出血高渗性昏迷个案报告

本文报道了一例外藉海员，航行中七天来发生头痛、腰病、失语、右侧上下肢瘫痪等脑血管意外症状，经颅脑CT检查证实为左侧丘脑区出血。抢救过程中曾先后发生周围循环衰竭、高渗性

期刊

支气管肺癌脑转移瘤脑出血高渗性昏迷

“开关大王”丁仓——我所经历的沧桑巨变

<正>我叫丁仓,在行业内人们叫我"开关大王",和开关检修工作打了一辈子交道。先后被评为唐山市先进生产者、华北电管局"9511工程"立功竞赛一等功、连续8年获华北电网公司先进

期刊

变电检修变电站天津蓟县检修工作

创意在平面设计中的应用探析

以平面设计中的创意为话题，主要论述了创意的含义、本质、特点等。尤其创意的要素及作用进行了详细的分析。最后，对创意的特点和应用进行了总结。对广告公司如何在平面设计作品

期刊

创意平面设计要素应用探析

六月硒、碲、铋市场简评

多种原因导致硒价飞扬二氧化硒价格从4月底的170-180元/公斤(21.3-22.5美元/公斤)开始酝酿上涨,到5月底6月初就已经迅速上涨至390-400元/公斤(48.8-50美元/公斤),短短数周,价

期刊

二氧化硒市场供应商消费价格上涨低价销售硒粉电解锰碲锭产量

论矿床水文地质类型及地下水对采矿影响与防范

矿山开采的过程会受到矿坑涌水问题的影响,在进行开采工作时,需要对矿山的水文地质条件进行详细了解,分析水文地质条件对开采环节可能造成的任何影响。对矿山的充水类型及勘

期刊

矿山水文地质地下水采矿影响防范措施

跨学科翻译研究:优劣与得失

当今的翻译研究表现出明显的跨学科特点,至少反映在四个方面,其成因可以归纳为四种因素,有其内在的必然性。跨学科的研究方法为翻译研究做出了至少四种贡献,因此受到多数人的

期刊

跨学科翻译研究贡献风险

基于Spark平台的协同过滤推荐算法的研究与实现

与本文相关的学术论文