基于Spark平台的协同过滤推荐算法的研究与实现

来源 :大连交通大学 | 被引量 : 0次 | 上传用户:szzc2001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今社会,互联网技术获得前所未有的高速发展,促使信息化技术遍及社会生活中每一个角落。各种信息数据也在持续不断地增长,而从这些海量的数据中抓取有效的信息已经成为当下迫切需要解决的问题。解决这种问题的有效方法之一是使用推荐系统,既对用户喜欢的信息和历史搜索等信息进行分析,创建对应的模型,从而为用户提供个性化的推荐系统。然而,经过实际的调查显示,现在大部分应用于推荐系统中的协同过滤算法,尚存在着一些推荐信息不准确的问题。例如,将用户和物品的数量变得越大,算法无法准确处理大量的数据,推荐内容的准确率大大降低,导致推荐系统无法为用户提供个性化的信息推荐服务。本文将协同过滤推荐算法做为此次研究的主要对象,通过对各种算法优缺点的分析,提出综合考虑物品和Slope One算法这两中因素,将这两种因素作为条件对用户的喜好进行预测打分,然后推荐给用户。首先,在整体的用户集合和物品集合中,选取出其中一部分的用户和物品作为目标,利用Slope One算法预测出这部分用户会对物品会有怎样的评分,得出评分的结果之后,就可以对评分的矩阵进行填充,这样做的好处是,一方面可以有效地避免因数据系稀疏性而带来的预测不准确问题,另一方面该评分预测结果是得出最终结果的重要参考之一。然后,将原来的数据集和预测部分的数据集综合起来考虑,按照一定的比例将这两种数据集结合在一起,从而可以形成新数据集之后,就可以计算物品之间的相似度和用户对物品平均偏好差异值矩阵。其次,在预测用户对物品的评分时,将刚刚计算出来的物品间相似度设置为Slope One算法的权值。最后,对参数进行训练,得到最终的评分预测结果。为了进一步优化该算法,以提升算法在处理大数据方面的能力,本文将Slope One相似度算法和改进后的协同过滤推荐算法在Spark平台上给予实现。并且,为了验证算法的预测是否准确,本文也将改进以后的协同过滤推荐算法在Hadoop平台上给予实现。经过在MovieLens标准数据集上的反复实验,本文提出的将Slope One和物品相结合使用的协同过滤算法能够有效提高物品推荐的准确度。并且,协同过滤推荐算法在处理海量数据的能力方面,Spark与Hadoop平台相比,运行效率更高,预测的更精准。
其他文献
本文以自身班主任工作实践为例,重在探索让学生学会评价自己的方式,通过这些有效的方式来更好地促进中职学生的学习,正确引导孩子们在人生关键成长阶段找对自己的方向,明确自
2005年下半年以来,中国稀土产业经过政府的大力整顿和取消出口退税后,稀土产品产量的无序增长和出口的盲目扩张终于得到了有效控制。在这种情况下,世界经济的平稳增长和中国
期刊
我国硅业,特别是其中的基础部分工业硅行业,2007年上半年的运行情况基本良好。大致情况如下:1.盲目发展势头受到一定遏制,但某些根本问题仍没解决 China’s silicon industr
期刊
项目名称温拌沥青混合料应用技术研究获奖等级一等奖目前,我国公路和城市道路的路面80%以上为沥青路面。在这些沥青路面中,95%以上采用热拌沥青混合料。热拌沥青混合料施工时
本文报道了一例外藉海员,航行中七天来发生头痛、腰病、失语、右侧上下肢瘫痪等脑血管意外症状,经颅脑CT检查证实为左侧丘脑区出血。抢救过程中曾先后发生周围循环衰竭、高渗性
<正>我叫丁仓,在行业内人们叫我"开关大王",和开关检修工作打了一辈子交道。先后被评为唐山市先进生产者、华北电管局"9511工程"立功竞赛一等功、连续8年获华北电网公司先进
以平面设计中的创意为话题,主要论述了创意的含义、本质、特点等。尤其创意的要素及作用进行了详细的分析。最后,对创意的特点和应用进行了总结。对广告公司如何在平面设计作品
多种原因导致硒价飞扬二氧化硒价格从4月底的170-180元/公斤(21.3-22.5美元/公斤)开始酝酿上涨,到5月底6月初就已经迅速上涨至390-400元/公斤(48.8-50美元/公斤),短短数周,价
矿山开采的过程会受到矿坑涌水问题的影响,在进行开采工作时,需要对矿山的水文地质条件进行详细了解,分析水文地质条件对开采环节可能造成的任何影响。对矿山的充水类型及勘
当今的翻译研究表现出明显的跨学科特点,至少反映在四个方面,其成因可以归纳为四种因素,有其内在的必然性。跨学科的研究方法为翻译研究做出了至少四种贡献,因此受到多数人的