面向排序的分布式协同过滤技术研究与实现

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:gdlcws
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据应用中,个性化推荐问题一直备受工业界和学术界的关注。在当前的个性化推荐领域中,推荐算法的分布式并行化问题和混合推荐问题一直是研究的热点。随着信息时代的到来,各行各业的数据量呈爆炸式增长,传统单机的推荐算法无法解决大数据问题,设计并实现可扩展的分布式推荐算法迫在眉睫。同时基于单一指标实现的推荐系统,并不能满足用户的多样性需求,因此不能保证推荐的质量,基于多指标融合的混合推荐系统逐渐成为研究的重点。为了研究推荐算法的分布式问题,文中提出了基于排序的分布式协同过滤算法DistCofiRank,首先设计了DistCofiRank算法的分布式方案,使得DistCofiRank算法在运行中各个计算节点之间的通信量尽量最少,从而保证算法的分布式运行性能。然后理论分析了DistCofiRank算法的目标函数优化求解策略,即BMRM算法。在运用BMRM算法求解DistCofiRank算法的目标函数时,文中提出了采用匈牙利分配算法求解目标函数的次梯度,运用了投影梯度法更新算法的学习参数。同时根据DistCofiRank算法的分布式设计方案,本文基于Spark平台设计和实现了DistCofiRank算法,实现了DistCofiRank算法的四个模块:训练模块、预测模块、模型保存与加载模块和评估模块。通过大量的实验表明,随着算法输入数据量的增大,通信的开销会影响并行算法的加速比,但随着计算量的增大,分布式算法DistCofiRank的加速比逐渐接近线性加速比,该算法具有较好的并行性和可扩展性,同时实验表明DistCofiRank算法对于测试集也具有较好的评估结果。由于单一评估指标的推荐算法提供的推荐列表并不能满足用户的多样性需求,为此本文提出了基于PredictionIO框架的ALS和DistCofiRank的混合推荐模型。其中ALS算法是基于评分的协同过滤算法,该算法可以为用户提供一个良好的推荐列表,却不能将与用户相关度最高的项目排在列表的最前端,然而DistCofiRank算法是基于排序的协同过滤算法,可以解决ALS算法存在的不足。本文采用分层混合策略融合ALS算法和DistCofiRank算法,不仅保证为用户提供一个良好的推荐列表,还使得与用户相关度最高的项目排在列表的最前端。基于这种混合推荐模型,本文还设计与实现了一个电影推荐系统,以可视化的方式展示推荐算法的推荐效果,该电影推荐系统个性化推荐部分的推荐算法引擎可以自由切换,方便研究者对不同推荐算法的研究和对比。
其他文献
高速铁路连续梁桥需要十分先进的技术工艺,保证工程项目的质量和安全,这就需要对高速铁路连续梁桥施工环节进行有效的控制和管理。
为了探讨我区流行性出血热的发病率趋势和预防措施 ,现将整理的疫情资料分析如下。资料数据来自疫情报告卡和传染病综合年报表。1 发病动态 :1 995- 1 999年未央区共发生流
用酶标仪测定吸光值的方法研究低温胁迫与正常温度下生长的白刺根、茎、叶中黄酮的含量,通过组织之间的差异对产生这种情况的原因进行分析,并将低温胁迫与正常温度下生长的白刺
地下轨交工程的深基坑施工对周边环境的保护和自身的安全有着极其苛刻的要求,在城市敏感区域尤甚,其风险控制至关重要.结合上海轨交12号线漕宝路站超深基坑施工实例,阐述了基
(上接《农村实用技术》2015第1期)(四)农区土蝗发生区。主要包括北京、河北、山西、内蒙古、辽宁、吉林、黑龙江、陕西、新疆等北方旱作农区、农牧交错区,以及华南、长江中下游、
目的分析泗洪县流行性出血热流行特征,为进一步做好流行性出血热防控工作提供依据。方法对2011—2016年上报到《中国疾病预防控制信息系统》审核确定的泗洪县流行性出血热报
对小儿肠套叠疾病在临床上采用彩色多普勒超声进行诊断,并对其临床诊断的价值进行分析。回顾性分析河北省承德县医院2010年1月-2013年6月收治的急性肠套叠且临床采用高频联合
根据我公司三总降变电所33 kV线路接地保护特点,分析现有缺陷.建议加装零序CT保护装置进行接地选线,以便于尽快查出接地故障线路.
对高速齿轮的发展现状、高速齿轮传动中的动载荷冲击及由此产生的振动与噪声作了一定的研究,对产生原因作了详尽的分析,并提出了多种降噪方法,而且对其中几种方法作了可行性分析
四、自贡灯会作为民间文化外交对世界的影响。$$通过自贡彩灯企业在欧美市场以灯会为载体推广中国文化的实践证明:随着中国复兴的步伐和祖国的日益强盛,为大量有志从事中国和
报纸