大数据模拟环境下的分布式协同过滤推荐系统的研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:xinqing101
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,信息量呈海量增长,传统的推荐系统已经无法处理海量数据所带来的大规模计算问题,而且传统的集中式协同过滤推荐算法中数据和计算耦合性非常大,并且无法为用户提供实时的、可靠的、可扩展的推荐服务,为解决这些问题,本文提出大数据模拟环境下基于相似用户的分布式协同过滤推荐系统。使数据和相似度的计算都被分配到一个分布式集群的各个节点上,各节点相互协作完成共同的推荐任务。  首先,本文引入分布式Hash算法实现了数据的分布式存储,将原本集中存储的用户偏好数据扩展到分布式环境中,提升了系统存储容量。同时提供一个快速的用户偏好信息定位算法,为分布式系统的实时推荐奠定了理论实现基础。  其次,提出了一个比较新颖的用户相似度计算及更新算法,将原本计算和数据耦合度很高的协同过滤推荐算法分成put和getRecommendedItems两个大的过程,能够较好的适应用户相似度的更新以及计算的分布化。两用户之间的相似度采用用户对相同项目的评分值的加权和得到,设定的权值来源于两个用户对同一个项目的评分值之间的距离,从而将更多的用户偏好信息纳入计算范围,提高了用户相似度计算的准确性。由于新的相似度的计算方式不需要进行大量的数据移动,且相似度的计算在put阶段完成,因此项目推荐能够做到实时完成。  再次,本文的分布式系统被设计成能够运行在普通廉价的PC机上,由于将组件的失效看做是一种常态而不是异常,因此本文将节点设计成可以在任何时候加入或者离开集群以支持集群的自稳定性。同时,针对相似度计算的过程中可能产生的大量连接问题,本文也提出了相应的改进策略。  最后,本文通过构建一个具有10台PC的局域网,分别模拟了在不同节点数量的集群中,百万与千万级别的数据下,对用户推荐的准确度以及推荐的实时性的影响。实验结果表明,基于相似用户的分布式协同过滤推荐系统,在推荐的准确性及实时性方面能达到较好的效果。
其他文献
本文主要利用UML相关图分析科教研管理信息系统功能需求,采用C/S模式结构完成设计,并在此基础上完成对大学教师综合能力的评价。从而实现科教研管理电子化、信息化和上报信息的
为了提高软件需求和软件设计的质量,软件工程界提出了需求分析工程技术和各种软件建模技术,需求驱动的软件体系结构设计理念也由此产生。 本文介绍了软件体系结构的概念、
“材料自然环境腐蚀”作为一个学科领域,从目前国家建设的需要来说,除了积累环境腐蚀数据外,还要着重解决自然环境腐蚀性的评价和从短期的加速腐蚀试验结果预测材料在自然环境中
近年来高动态范围图像(highdynamicrangeimage,HDRI)在数字图像领域变得越来越普遍而且重要。随着硬件设备存储量的不断发展,真实场景的高动态范围图像变得非常容易获取,HDRI越
数据备份系统中的数据变换,是指为了满足用户和系统的需求,对备份和恢复数据流进行的各种变换操作。在数据备份系统中,这些数据变换操作对应了一组不同的算法和函数,有下列特征:首
Web服务组合是将已有的Web服务组合起来,形成增值的组合服务以满足用户日益复杂的应用需求的技术,学术界从不同侧面开展了针对Web服务组合的研究工作,也取得了大量的研究成果。
信息隐藏技术可以使机密资料通过普通的文本、图像、音频、视频等载体轻易越过防火墙系统。因此检测网络上传输的图像文件是否含有隐藏的信息对于维护网络的安全、防止不法分
红外热波无损检测是一种新兴的无损检测技术,具有快速、高效、直观的优点,具有良好的应用价值。其技术核心包括三个部分:热激励、热成像和实时图像处理。本课题研究热波信号的图
物流业是现代商品流通环节的基础行业,对商业流通体系,甚至整个国民经济都有着举足轻重的意义,现代物流更是被广泛地认为是企业降低物耗、提高劳动生产率以外的第三利润源泉。
Ad Hoc网络是一种不需要固定基础设施支撑的、由若干移动节点组成的自组织无线网络。网络中没有固定的基站和移动交换中心,所有的协议都必须分布式工作。由于Ad Hoc网络能够