协同深度推荐算法并行化研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:MM27291457
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
协同深度学习(Collaborative Deep Learning,CDL)在推荐系统的应用,缓解了传统协同过滤方法仅使用评分矩阵作唯一信息源,在评分矩阵非常稀疏的情况下,性能表现急剧下降的问题。协同深度学习利用神经网络极强的特征学习能力和模型拟合鲁棒性,为推荐系统在数据稀疏的情况下提供了新思路。但当推荐系统面临大量数据时,导致模型训练变得难以维护,进而出现多种不可预料的问题。为解决上述问题,本文对协同深度学习及其并行化方法进行了深入研究,提出了一种针对项目内容学习优化的改进模型协同深度推荐(CDL with Item private Node,CDL-i)。同时对算法进行并行化改进,提出一种并行训练CDL-i的方法,将其移植到Spark分布式集群上,实现分布式并行训练。本文内容主要分以下几部分:首先,介绍了课题相关理论,包括协同深度学习、自动编码机、概率矩阵分解;机器学习算法模型并行化现状与思想;以及基于Spark分布式框架的并行技术。其次,在CDL基础上对SDAE进行改进,提出了CDL-i模型,通过为项目增加私有网络节点,在模型的网络参数共享情况下,为每个项目添加私有偏置项,使网络能够更针对性地学习到项目内容参数,改进了模型在推荐系统中对项目内容的探测性能。再次,为应对越来越庞大的数据规模,本文基于上述改进算法,对模型进行拆分,提出一种并行化训练CDL-i的方法。通过类似EM的步骤,并行地对模型各部分参数进行训练优化,增强模型所能处理的数据规模和扩展性。最后,本文描述了并行CDL-i移植到Spark分布式平台下的实现,此过程中构建了一种基于Spark平台的机器学习框架,通过对实际机器学习流程的抽象,将繁杂的机器学习流程统一在一套Pipeline逻辑中,方便学习和使用。
其他文献
本文引入地理距离、制度环境、工业企业规模、信息化水平四个因素,从理论层面分析了它们对物流业提升工业效率这一运行机制的影响,并以2005-2009年中国190个城市面板数据为样
“教师即研究者”的提出对师范生的发展提出了新的要求,教育科研能力成为目前师范生必不可少的素质之一。高师院校应从课程设置、科研管理、教师素养和教育资源等方面强化师范
声乐课教学的弊端对提高声乐课教学质量与效率产生不利的影响,加强对声乐课教学问题的解决及教学方式的改革是有必要的,通过对教学方式的改革,有利于学校探索出更多行之有效
我国是能源消耗大国,能源短缺的现象时有发生,要想解决这些客观存在的问题,研发新型能源的替代品,尤为迫切。甲醇作为有机化工的重要原材料,化学生成很多衍生产物,来满足国家经济发
科学课程标准关注于培养学生的探究能力和实验技能。针对科学教学中存在的问题,对Flash动画在教学中的应用效果进行分析。
实务中对违法建筑侵权案件未区分程序性违法建筑和实质性违法建筑,只简单的以赔偿建筑材料的方式处理,不曾看到程序性违法建筑本质上已等同于合法建筑,更不曾看到实质性违法
SKI-300型二甲苯异构化催化剂能将非平衡的 C8芳烃混合物转化为平衡组成,使乙苯转化为二甲苯。新型催化剂是由分子筛提供酸性组元,反应过程不需补氯,解决了Ⅰ-5催化剂连续补
新能源汽车产业是我国未来汽车工业环境下最重要的产业之一。随着国家对节能减排的要求不断提高,各级政府从政策角度给予多方支持,也促进了新能源汽车产业的蓬勃发展。时至今日,新能源汽车的产业已经形成了完善的产业链,并且在智能化的技术加持下,未来的无人汽车应用也将成为市场上的发展方向。从另外一个视角来看,除了整车厂的投入发展外,新能源汽车的快速发展也离不开零部件厂商的支持。越来越多的传统汽车零部件厂商正在向
随着金刚石的大规模应用,人工合成金刚石得到了快速发展,工业上批量合成金刚石已经成为了现实。河南是人造金刚石企业大省,全球90%的人造金刚石是中国制造的,在这90%产量中80%有河南企业生产,所以有“人造金刚石看中国,中国金刚石看河南的说法”。人造金刚石的品质受合成温度的影响,金刚石的合成条件为高温高压,在这种高压条件下,无法对合成金刚石腔体温度直接测量,只能依靠合成碳棒金刚石颗粒的品质来间接反映合