基于隐式反馈的分布式推荐算法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:wangy3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网时代极大地改变了人们的生活方式。随着信息技术的快速普及与发展,各类互联网服务,无论是电子商务平台、社交网站抑或是在线视频网站,都在运营中产生了海量的数据。如何处理这些信息,从中挖掘出潜在的知识并加以利用来产生收益,逐渐成为了各商业公司的关注焦点。推荐系统作为一种挖掘用户偏好并向其推荐商品的技术,无论在学术界还是商业界都被广泛研究。基于矩阵分解的相关方法在推荐大赛Netflix Prize中取得了单模型的较好表现,吸引了大量研究者对其改进和创新。但是,这些方法基于一些前提,这很大程度上限制了它们在实际环境中的应用,如1)模型的训练数据是用户的显示反馈。而在实际中,系统可能并没有设计显式评分的环节,而仅有一些收集的用户行为数据,如点击次数,浏览时长等。2)随着大数据时代来临,系统规模呈几何级数增长。单机的处理能力,无论从计算能力还是存储能力上来看,都越来越无法满足要求。本文提出并实现了一个基于分布式内存的矩阵分解算法,同时针对隐式反馈数据的特点对模型进行了修改,克服了当前矩阵分解推荐算法面临的问题。主要工作如下:1.修改了传统的基于显式评分的矩阵分解模型,使其对于隐式反馈数据也有良好的效果。2.分析了交替最小二乘法存在的并行优化空间。3.提出了三种在分布式环境下的数据分发与缓存策略,并使用spark提供的底层接口实现了在分布式内存上的并行化的交替最小二乘法求解。针对以上工作,本文设计了实验对结果进行验证。实验结果表明,本文提出的新模型可以有效地对隐式反馈数据进行训练,同时利用了分布式内存计算框架,相比传统的MapReduce编程模型有很大的性能优势。
其他文献
随着社会信息化步伐的加快,信息安全正在成为人们研究的热点。由于生物识别技术具有不可复制,不可移植,不可仿造的特点,使得生物识别技术在信息安全领域的应用越来越广泛。在
网格的特点包括:节点的数量比较大;节点之间的异构性;每个节点具有高度的自治性。在网格系统中,大量的动态和异构资源给网格资源发现带来巨大的挑战。   本论文提出了采用自组
特征选择通常作为归纳学习的一个预处理操作,它旨在从原始数据的特征空间中选择一个最优的特征子集,使得在原始特征空间上的操作可以很好地在该特征子集空间上的操作来表示。
随着汽车工业的快速发展,汽车控制也越来越智能化,越来越多的智能控制系统被加入到汽车中。为了使各控制系统能够相互通讯,车身网络也就应运而生。CAN总线是目前运用比较广泛
信息系统的广泛应用和互联网技术的发展,促进了人们对完整获取分布、异质信息的需求,特别是完整获取半结构化甚至非结构信息的需求,因此促进了数据集成技术的研究。本文在现
社交网络的流行改变了人们的交流方式,越来越多的互联网用户习惯于通过社交网站进行社交活动并分享各类信息。随着移动定位设备的普及,基于位置的社交网络也逐渐流行起来并且
天体光谱蕴含着天体重要的物理信息,通过光谱的研究,人们可以测定天体的成分,确定天体的表面温度,光度,直径,质量等信息。因此,光谱分析在天体和物理学中占有重要地位。LAMOS
Spring与Hibernate等轻量级Java框架的出现,使得只利用普通Java对象(POJOs),就可以建立较大规模的企业级应用系统。应用这些轻量级框架,可以迅速的建立程序模型,以此原型,很容易
目前,移动互联网的发展日新月异,在此基础之上发展起来的电子商务、网上银行和电子政务的安全性也益发严峻。TLS作为主流安全协议,可以在数据通信过程中确保传输信息的完整性
近年来,随着WMN研究的深入及在商业应用的拓展,特别是实时视频业务大量出现的情况下,传统的IEEE 802.11e接入控制协议不能保证网络各业务服务质量QoS(Quality of Service)和