基于RDD的协同过滤推荐算法的研究与优化

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:www6331758
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的普及和物联网的迅速发展使得数据已进入自动产生阶段,随之人类进入了大数据时代,如何高效地处理和利用这些数据成为了挑战,推荐系统的出现有效缓解了信息过载带给人们的困扰。推荐算法是推荐系统的核心算法,协同过滤(Collaborative filtering,CF)推荐算法是如今应用最广泛的一种。然而,单机环境下的推荐算法面对数据量的剧增需要很长的处理时间,不能实现推荐的实时性,分布式平台下的CF推荐算法解决了该问题。但是,该算法在应用中依旧存在数据稀疏性、冷启动和可扩展性等问题。所以,本文在Spark分布式平台上基于RDD(Resilient Distributed DataSet)编程模型对CF推荐算法的推荐过程和原理进行了系统研究,并针对算法中存在的不同问题提出了两种优化算法。主要研究内容如下:1.针对算法中存在的数据稀疏性和用户冷启动问题,本文提出融合多因素的协同过滤推荐算法。首先,将用户特征因素加入输入数据集中,应用聚类算法对其进行类别划分,此后在类内进行用户间相似度计算,不但缓解了数据稀疏性和用户冷启动问题,而且减少了算法计算量。其次,通过加入用户评分差值因素对相似度算法进行改进,从更宏观的角度衡量了用户的相似程度,提高了相似度的有效性。然后,在推荐列表的生成阶段提出了关联项目的概念,从预测评分以及与被预测项目评分的关联性两个方面为用户生成推荐列表。将该算法在RDD编程模型下进行设计和实现,实验结果表明算法缓解了数据稀疏性,提高了算法的可扩展性,推荐准确率和F1指标有一定的提高。2.针对算法中用户反馈存在的主观性问题和相似度算法应用中存在的缺点,本文提出用户反馈模糊化Top-N推荐模型。首先,将模糊集的概念应用到用户反馈数据的预处理中,解决用户评分主观性问题,使数据能更准确反映用户的实际偏好。其次,提出置信度的概念,结合两种传统的相似度算法,提出改进的CJ-sim相似度算法,并对评分预测算法进行简化与其组合使用,以增强相似度对预测结果的影响。最后,对该推荐模型基于RDD进行了设计和实现,实验结果表明该模型适用于Item-based CF和User-based CF,缓解了反馈数据的主观性问题和相似度算法存在的缺点,提高了推荐准确率。
其他文献
作为一门非常注重实践和理论结合的学科,化学需要从不同的角度和阶段为出发点,引入化学的知识进行教学才能够有效的提高化学教学工作目的。实施高中化学课程的新课改要求首先
过去二十年里,过渡金属催化或者促进C–H键的转化作为一种步骤简单、原子经济的方法被广泛地应用于有机复杂分子的合成中。与传统的交叉偶联相比,导向基团辅助的C–H键活化以
宏基因组学直接从环境样品中获取全部微生物的DNA,无需经历人工纯培养阶段,在微生物的研究中发挥了不可替代的作用,给微生物领域的研究带来了新的发现。由于直接从环境样本中
Peer-to-Peer(P2P)覆盖网络架构自被提出以来就备受关注,但由于网络地址转换(Network Address Translator,NAT)设备的出现使得节点之间难以直接通信。同时,P2P网络架构分散与
股权代持是近年来公司法理论中极具研究价值的主题,其作为体现商事自由最大化的一种投资手段,存在于我国公司法实务中已是不争的事实。近年来,股权代持协议被认定为无效的案
近年来,我国频发各种大型自然灾害,包括2008年的汶川地震、2014年的“威马逊”台风、2016年长江流域的水灾等,自然灾害给国家和社会造成巨大损失的同时,也给受灾人员带来了巨
固定翼航空系统飞行探测过程中,当飞行器受到的风向、风速、气流等外界干扰较小,飞行速度一致,按照设计测线飞行时,称为平稳飞行状态。但在实际飞行过程中飞行器大多处于非平
起伏地表(黄土塬、沙漠和山地)进行三维地震勘探资料采集,不但要避开地表障碍,还要避开高海拔峰顶和陡坡(即:避高、避陡)。本论文以内蒙沙漠区GZH三维勘探工区避高、避陡部署
人类基因组测序计划的研究表明,在人类基因组中,仅有不到全部基因组序列2%的基因具有编码蛋白质的功能,其余是缺乏蛋白质编码能力的,这在早期曾被认为是“垃圾基因”,直到200
受我国英语学习的客观环境的限制,英语课堂自然成为学生学习英语的重要场所,学生在很大程度上依赖于教师的课堂话语,换言之,英语教师课堂语言的质量直接影响学生课堂学习的进