基于机器学习的推荐算法研究及分布式实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:CRP0538570914
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,庞大的数据信息给社会带来了“数据爆炸”,给个人用户带来了“信息过载”问题。作为有效缓解“信息过载”问题的一种方法,推荐系统在社会生活中得到了广泛的应用。推荐系统作为一种信息过滤系统,从大量信息中挖掘出有用信息,为用户进行精准推荐,有效解决了个人用户的“信息过载”问题。同时,推荐系统在消费领域发挥着不可或缺的作用,推动了企业进行数据营销,给企业和社会带来了较高的经济效益。本文围绕基于机器学习的推荐算法,并进行了探索和研究,开展了以下几项研究工作:(1)提出了基于数据预填充和聚类的协同过滤推荐算法。该方法首先针对用户物品评分矩阵稀疏性问题,基于数据挖掘的思想对稀疏矩阵进行填充处理,并将评分填充问题建模为分类问题,使用了梯度提升树GBDT+LR算法实现了对稀疏矩阵进行部分评分数据的预填充处理,并通过选取合适的分类概率阈值,增加额外的有效信息的同时,避免了带来的噪声干扰。其次,使用了流形降维t-SNE算法和均值漂移聚类Meanshift算法,对预填充后的评分矩阵进行了降维和聚类,生成用户聚类中心,进一步改善了评分矩阵稀疏性问题。最后根据生成的聚类中心,计算目标用户和最近邻聚类中心的相似度,从而进行显式评分预测,对目标用户生成推荐列表。实验结果表明,该算法通过利用数据预填充、降维、聚类等算法,有效增加了额外信息,改善了数据稀疏性问题,提升了推荐准确率,具有良好的推荐效果。(2)提出了基于神经网络的交叉协同过滤算法。该方法针对传统推荐算法矩阵分解模型的泛化能力不足、信息损失等问题,将深度神经网络与矩阵分解相融合,并在网络结构中加入Cross显式特征交叉算子,挖掘用户和物品的显式高阶特征信息表达,预测用户对物品的隐式评分。实验结果表明,该算法发挥了深度神经网络的作用,增加了模型的泛化能力,充分挖掘了用户和物品的特征信息表示,减少了信息损失,具有较好的推荐效果和可扩展性。(3)提出了基于数据预填充的ALS算法的分布式实现。该方法针对用户物品评分矩阵稀疏性问题及推荐实时性需求,将数据预填充算法和ALS(交替最小二乘法)算法相结合,并在分布式计算平台Spark上进行了并行化实现。首先分析了分布式计算平台的优势;其次将数据预填充和ALS算法相结合,在Spark上进行了并行化实现,并针对实验参数进行了对比实验;最后将算法运行所消耗的时间在Spark和单机上进行了对比。实验结果表明,数据预填充能够为原始数据集带来额外的有效信息,减少误差损失;同时,Spark对大规模数据集计算有着显著的优势,能够缩短计算时间,具有良好的实时性和计算资源可扩展性。
其他文献
自2016年来,“剧本杀”作为国内当今最流行的桌面实况扮演游戏,受欢迎程度以及社会讨论度都在逐年提升,越来越多的受众喜爱并且乐于去尝试这个“扮演”与“推理”共存的特殊游戏。“剧本杀”的特殊性来源于其内部是戏剧与游戏二者的融合,也是后现代戏剧实践继沉浸式戏剧之后的另一大突破。“剧本杀”所包含的沉浸感与交互性,是它最突出两大特征,从这点上看,与沉浸式戏剧有着共性,却又有着很大的不同。它在戏剧活动的基础
学位
随着中国社会的快速发展,中国的城市化进程也越来越快,随之而来的是“城市病”越来越明显,越来越突出,尤其是对于超大型城市而言,这些问题更加严重。加上人们对于社会公共服务的需求也越来越高,对于环境权益的认识也不断加深,环境邻避设施逐渐变成民众反对的焦点,也成为阻碍城市发展的一个绊脚石。因此,如何有效地缓解环境邻避设施引发的矛盾对城市发展有着积极作用。城市是人类文明的花朵,也是人类文明进化的成果。但是城
骨瘤、骨折、大段骨缺失等疾病一直是临床医学的治疗难点,随着3D打印技术的发展,越来越多的骨植入物通过3D打印技术来帮助临床医学解决各种困难。但是假体置换还有一些问题,比如在髋关节置换手术中,很多原因导致宿主骨与假体植入物接触面的不稳定产生机械损伤、假体松动以及假体周围应力性骨折等问题,最终使假体植入物脱落和异位,这使患者遭受更大的伤害,所以进一步提高假体植入物在宿主体内的稳定性变得非常重要。由于钛
为探究外源6-BA、GA3对油茶花芽分化及生理生化特性的影响,分析花芽分化时期叶片营养物质含量的动态变化,以及油茶花芽分化时期花芽内源激素含量与花芽分化率之间和油茶花器
学位
学位
自改革开放以来,我国经济迅猛发展。生活水平的提高促使更多的人越来越注重个人价值的实现以及社会的文明程度,而志愿服务活动正是人们参与社会、回报社会的重要途径。近几年,志愿者人数持续增长,他们在扶贫济弱、环境保护、灾难救济等方面发挥了关键作用,逐渐得到全社会的关注与认可。但志愿者在参与志愿服务活动帮助他人的同时,也有权益受到侵害的可能,而我国对志愿者权益的保障以及协调志愿服务领域各主体之间的法律关系方
党和国家一直以来高度重视国家通用语言文字的普及,国家通用语言文字的普及对促进各民族交往交流交融,提高各民族凝聚力,为实现社会稳定和长治久安奠定基础。本论文主要采取了抽样调查法、问卷法、访谈法和观察法,通过运用spss22.0分析数据,描述分析了阿勒泰地区维吾尔族的国家通用语言文字使用现状的调查结果,从“国家通用语言使用能力”、“国家通用语言掌握程度”、“国家通用语言在不同场合的使用”、“国家通用语
杨沂孙,清代著名学者、诗人、书法家,善篆书,在乾嘉金石考据余风下学习邓石如,并且吸取金文、石鼓文、两汉碑额篆书等笔法,对大篆和小篆进行自然糅合,从而另辟新径形成自己峻立端庄的独特个人风貌,促进了清中晚期篆书发展。杨沂孙在古文字学和训诂音韵之学也有一番研究,著有《管子今编》、《文字说解问讹》、《在昔篇》等著作,是一位典型的实践理论全能型书家。杨沂孙篆书蕴含着丰富的艺术语言与研究价值,本文首先是围绕其
中国正处于新时代发展的开局时期,新型城镇化建设和产业发展是我国上阶段发展的关键性任务。在2019年、2020年的《国务院政府报告中》李克强总理都重点提出深入推进新型城镇化,发挥中心城市和城市群综合带动作用,培育产业、增加就业。由此可见,在未来新时代发展过程中,新型城镇建设和产业集群发展仍将是我国现代化建设的重点内容。本文以河南省为研究对象,是因为河南省是中部崛起的战略要地,也是经济发展水平处于中等