一种改进的协同过滤推荐算法及其并行算法研究

来源 :烟台大学 | 被引量 : 0次 | 上传用户:yihai624
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,推荐系统在互联网中的应用越来越广泛。推荐系统通过分析用户历史数据信息发现用户感兴趣的信息,进而将这些信息推荐给目标用户。在学术界,有许多推荐算法被提出。其中,基于用户的协同过滤推荐算法是推荐系统中应用最广泛的推荐算法之一。基于用户的协同过滤推荐算法不需要用户提供明确的需求。算法通过找到目标用户兴趣相似的近邻用户,然后将近邻用户喜欢的、并且目标用户没有关注过的项目推荐给目标用户。但基于用户的协同过滤推荐算法在进行用户相似度计算时,仍然受到项目热度以及用户共同评分数量的影响的问题,仍需进一步的改进。同时,随着数据规模的逐渐增大,推荐算法的运行时间也随之增加,现有的推荐算法在处理海量数据时效率较低。针对上述提到的问题,对基于用户的协同过滤推荐算法主要进行如下两个方面的改进:(1)针对基于用户的协同过滤推荐算法在计算用户相似度时,没有考虑项目热度的问题,进行改进。通常用户关注过多的项目,都属于热门的项目,然而这一类项目很难反映用户的相似度。反而冷门项目更能反映用户之间具有相同的爱好,更能反映用户之间的相似度。考虑项目热度对推荐算法的影响,将热门项目惩罚因子,融入到本文推荐算法的用户相似度计算公式中,对用户相似度计算进行改进。针对基于用户的协同过滤推荐算法使用修正余弦相似度公式进行用户相似度计算时,没有考虑相似度结果受共同评分数量多少的影响问题,将已经添加热门项目惩罚因子的用户相似度计算方法进一步改进。并在此基础上,充分考虑用户相似度计算受共同评分数量的影响。引入JS散度作为修正因子,从概率分布的角度,对用户的相似度结果进行修正。(2)将改进后的串行推荐算法,基于Spark平台设计并行推荐算法。该并行推荐算法从Hadoop平台的HDFS分布式文件系统上读取数据。主要使用算子对RDD和Data Frame进行数据操作,把用户数据转换成可被操作的新的RDD和能够被SQL指令直接处理的Data Frame。本文并行推荐算法的设计过程分为四个阶段。第一个阶段,为数据预处理过程设计并行算法。将原始数据集RDD划分分片到多个节点中,在多个节点的不同任务中,并行执行数据分割操作。第二个阶段,对用户相似度计算过程设计并行算法。用户相似度阶段任意用户之间的笛卡儿积计算过程设计并行算法。第三个阶段为用户评分预测过程设计并行算法,将目标用户利用评分预测模型计算预测评分的过程进行并行算法设计。第四个阶段对目标用户推荐过程设计并行算法。将所有用户的评分预测结果降序排列的过程进行并行算法设计。
其他文献
被列宁称为“唯一真正伟大的俄国著作家”的尼古拉·加夫里诺维奇·车尔尼雪夫斯基(НиколайГавриловичЧернышевский)是俄罗斯19世纪著名的文学评论家、作家、革命民主主义者。他一生坎坷,却始终坚持革命理想,在监狱中创作了自己最重要的文学作品《怎么办?》(?Чтоделать??)。这部作品对俄罗斯几代人的伦理观念产生了重大影响,但国内学者们对这部作品的分析多是从人物形象、社会影响等方面进行,而针对小说伦理价值的研究相对来说还比较欠缺。与此同时,由聂珍钊
纳底布鞋是中国鞋履的灵魂。随着人们的观念更加趋向自然健康,手工纳底布鞋的回归自然成了现代人心底共存的一份纯情,怀旧与返朴成了现代追赶的潮流之一,从而唤起了每个人记忆里那一双温暖的纳底布鞋。手工纳底布鞋具有文化性、绿色养生的内涵,是地域特色浓郁的民间艺术瑰宝。但是随着现代化科学技术的飞速发展,布鞋几乎全部为机械化生产,也随之失去了手工艺品本身带来的温度和饱含的情感。云南是一个多民族的省份,在许多地区仍然保留着纳底布鞋这门工艺。目前对于纳底布鞋的研究虽然有了一些成果,但研究角
随着网络上的图像数据的增加,以及深度学习的发展,针对网络图像所包含信息的解读变得重要。人脸是辨别每个人的主要外貌特征之一,通过人脸还可以进行性别识别和年龄估计,人脸识别,个性化产品推荐、国家信息安全系统等方面有着重要的应用价值。因此,如何高效地从网络图像中检测人脸,并准确地识别出其性别和年龄成为一个重要的研究课题。针对网络头像识别任务中,Centernet算法和单一特征弱分类器算法对人脸的检测、性别识别和年龄估计中存在的运行速度慢和准确率低的问题,1.本文提出了改进的Ce
燃气-蒸汽联合循环(Gas turbine combined-cycle,GTCC)供热发电机组系统具有能量利用率高、可靠性和灵活性好、清洁化程度高等优点。在需要大量蒸汽热负荷的工业园区建设GTCC热电联产机组和集中供热系统,是工业高质量发展的重要途径。工业园区的集中供热系统建设时常涉及源、网等环节的多个投资主体,科学精准地核算热电联产机组的供热成本方能合理分配供热效益。本文从能量品级的角度对燃气-蒸汽联合循环热电联产过程中各种能量的利用价值进行量化分析,提出能量品位量化
近年来,我国3D打印市场应用程度不断深化,3D打印技术向着高性能、多材料、智能化的方向发展。特种工程塑料以其优越特性得到广泛的关注,但同时也对打印设备和工艺提出新的挑战。目前国内针对特种工程塑料3D打印的研究较少,相应设备商业化普及程度很低,已有设备价格昂贵且性能参差不齐。本文结合相关企业需求,设计开发了一款兼顾功能性、经济性、可靠性和美观性的高温3D打印设备。同时,为提升制件表面质量和用户使用体验,对切片软件进行优化开发;结合物联网技术实现了打印过程远程监控可视化应用,
我国学生体质健康监测工作主要依托政府部门开展,目前仍存在对测试数据的应用意识不足、对学生体质健康促进的指导作用不足等问题。因此,为了发挥学生体质健康监测数据的效能,满足政府、学校、学生的实际需求,建立一个多维度、全面分析学生体质健康状况的大数据平台迫在眉睫。本研究综合运用文献资料法、逻辑分析法、访谈法、UML建模法、计算机程序设计法等研究方法,设计并实现了天津市学生体质健康大数据平台,尝试使用大数据技术解决在数据应用方面存在的问题。本文首先分析了国内各省市学生体质健康大数
面对当前人工智能与互联网的蓬勃发展,未来网络化产业体系表现为众智网络生态体系,由于产业或服务的性质与特点不同,会存在大量相互关联的网络化产业运行平台、组织或个体,形成产业生态结构。这些运行平台面临着综合性、半专业性或专业性、以及特定产业体系达到高效运行状态需要多少产业运行平台等现实问题,这正是研究众智网络生态结构演化的需求所在。本文引入生态学的概念,对众智网络的生态结构演化进行仿真研究,该仿真是借助生态学的概念、理论及方法,对复杂网络结构和系统结构进行仿真。在电子商务系统
童话作为伴随着儿童成长的文学作品,在小学语文教材中占有稳固的一席之地,并发挥课程内容学习与审美情趣培养等重要作用,对儿童的发展有着重要的意义。随着新课程理念的不断推进,童话的教学越来越被人们所关注。童话作品的选文以及在教材中的比例,引发了大家的思考与热议。反观历史,五四新文化运动带来了文学和思想上的启蒙,整个民国时期教材中的童话作品数量和质量获得了教育界较高赞誉。与大陆同宗同源的中国台湾地区在落实学科课程目标、传承中华传统美德以及带给孩子丰富审美体验上,均取得了很多成就。
目的:了解延安城区儿童哮喘急性发作住院的流行病学资料,了解延安城区空气污染物及气象因素对儿童哮喘急性发作住院的影响,探讨空气污染物及气象因素与儿童哮喘急性发作住院的相关性。方法:通过延安市生态环境局收集延安城区2011年1月1日-2020年12月31日连续10年间空气污染物(CO、NO2、O3、SO2、PM2.5、PM10)月平均浓度值。以及同期气象因素(平均温度、平均湿度、总降水量、平均风力等级
在线社交网络为用户提供了彼此交互并共享信息的平台,实际上,互联网上信息的真假有时难以辨认。显然,相对于陌生人发来的信息,来自可信任的朋友的信息更可能被采纳。因此,信任在在线社交网络中发挥着重要作用。许多成功的推荐系统都会考虑信任关系,研究表明,将信任纳入推荐系统可以提高推荐的质量和覆盖范围,如Advogato和Film Trust,都使用信任网络来表达用户间的信任关系。然而,除了少量的直接信任关系