云计算环境下的协同过滤算法研究与实现

来源 :兰州交通大学 | 被引量 : 2次 | 上传用户:lyre1981
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网时代的发展,大量的信息数据在不断产生。个性化推荐帮助用户从海量数据中筛选出需求的数据,为了使用户获得更好的推荐体验,如何优化推荐就成为推荐领域的研究热点。协同过滤算法是推荐领域中常用的一种技术,它可以方便用户获得较精准的个性化推荐结果。但由于推荐算法的数据稀疏性问题和扩展性问题,导致协同过滤算法的推荐效果不佳以及算法在传统单机上运行困难。所以本文采用在云计算环境里,用一种新的混合推荐算法进行解决。在本文的混合协同过滤算法中,本文对基于内存的协同过滤算法提出改进。首先是相似度的改进,Pearson相关系数是传统协同过滤算法中常用的一种相似度计算方法,但由于该方法存在着这样的一个问题:当共同评分项越小,则Pearson系数反而越大。针对这一问题,本文使用共同评分项目个数与最多的用户评分项目的个数比值,对传统的皮尔逊相关系数进行加权,得到新的相似度计算公式。然后在本文算法中引进参数θ。因在数据稀疏的情况下,最近邻居集中会出现这样一种情况:两用户或项目间的共同评分项很少,且两者中,一个的评分项个数远远大于共同评分项个数。这在推荐算法中,将导致预测出一些多余且不可靠的评分项。所以将共同评分个数与最多的评分项目个数的一个比值θ,作为判断是否为最近邻居。最后本文的混合协同过滤算法框架的设计,将最近邻居个数作为判断,是否把基于项目的推荐结果填充基于用户的预测结果中。此外,本文还实现了混合协同过滤算法分布式化。Hadoop云计算平台是一个能够对大量数据进行分布式处理的软件框架,它具有可靠的、高效的、可伸缩的特点。该Hadoop云计算平台完全可以支撑推荐算法对海量数据的计算需求。但Hadoop的MapReduce编程模型不同于以往其他的编程形式。所以本文将算法的分布式实现分解成一系列的MapReduce过程,具体分为数据集的预处理模块、基于用户的算法模块和基于项目的算法模块3部分。通过模块的整合更好地实现混合协同过滤算法分布式化。为了验证算法的推荐效果,本文将Grouplen提供的Movielens数据集和Netflix提供的竞赛数据集做为实验数据,并且使用平均绝对误差、准确率和覆盖率3种评价标准作为综合指标。通过实验数据,从准确性和个性化两个方面,证明了该混合算法相比于传统协同过滤算法有更好的效果。
其他文献
随着地震数据解释技术的成熟,在地质勘探中对地震层面及断层的解释已经成为一种趋势。本文以地震记录为研究对象,应用神经网络、小波分析和智能蚂蚁等数学算法完成地震层面及
近二十年来,随着计算机软硬件技术、计算机图形学技术以及虚拟现实技术(Virtual Reality,VR)的不断发展,虚拟摄像技术也已经迈入了全新的发展时代。现代影视节目的制作已经离
随着市场竞争的不断加剧,企业对降低物流成本的更高追求导致了物流提供商有必要从更高的角度来看待物流服务,把提供物流服务从具体的运输管理协调和供应链管理上升到对整个物流
随着多媒体技术的迅速发展和计算机的不断普及,计算机的性能也在不断发生变化。计算机运行速度快、运算量大、计算能力强等特点不断增强。同时,高质量视频的快速传输和共享已
为了应对服务及服务组合应用执行过程中所面临的各种异常情况,保证其运行效果,需要在异常发生或者预测到异常发生时对组合服务进行调整以适应执行环境的动态变化。相同的组合
入侵检测(Intrusion Detection)被认为是防火墙之后的第二道安全闸门。它通过收集和分析网络行为、安全日志、审计数据以及其它网络上可以获得的信息和计算机系统中若干关键
自治化是未来网络体系结构的研究中的一个主要方向和趋势。网络自治化的思想得益于自治计算、自治通信领域研究的思想,在网络体系结构设计中自治化功能,以便实现自组织(self-
根据金矿顶板的安全现状,分析现有的金矿顶板安全监测技术,总结其优缺点。根据煤矿测力锚杆监控顶板应力的成熟技术,提出一种应用于金矿的测力锚杆监控顶板应力的方案。根据
后基因组时代,作为复杂网络的生物网络,受到广泛的关注。为全面理解蛋白质之间是如何通过相互作用来完成生命活动,必须分析蛋白质相互作用(Protein-ProteinInteraction, PPI)网
传感器节点部署区域的开放特性以及无线电的广播特性,使得WSN的路由很容易遭到攻击者的破坏。目前,针对WSN的路由协议有很多,在安全路由方面研究主要集中于针对广播路由信息