基于大数据的用户个性化推荐系统设计与实现

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:zhuxin1109
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展,不断涌现的高新技术工具改善着人们的生活水平。推荐系统在这个过程中扮演着至关重要的角色,它已经广泛应用于社交网络和电子商务等许多在线服务领域中。推荐系统是一种软件工具,它可以为用户推荐一些可能感兴趣的物品或服务,它的存在可以让人们获得更加多样化的有效信息与服务。除了社交、电商,在电影、音乐、书籍和文章等方面也随处可见。推荐系统能够持续的受欢迎得益于推荐技术的不断发展与优化。尽管如此,现有推荐系统仍然面临着冷启动、稀疏性和预测准确率较低等问题。尤其是在大数据时代,传统的推荐系统架构无法满足日新月异的商家与用户需求,同时在扩展性方面仍存在问题。随着大数据技术的不断发展,这些传统问题有了新的解决方向,其中就包括Hadoop分布式计算平台与Spark分布式计算引擎。Spark见长于内存迭代计算,也是当下主流大数据技术。本文主要研究了几种比较经典的推荐算法,针对冷启动、稀疏性和预测准确率较低等问题,进行算法改进,提出了一种新的推荐方法,并在Spark集群上设计与实现,同时提出了一种基于RDD依赖关系的缓存管理策略,提升内存计算资源的使用效率。具体的研究内容如下:(1)针对基于潜在因子模型的推荐算法存在的冷启动和数据稀疏性等问题,提出了一种基于潜在因子的矩阵分解补全混合加权推荐方法(Latent Factor-Based Matrix Factorization Completion Based Hybrid Weighted Recommendation Method),简称LF-WMC推荐方法。从矩阵分解与矩阵补全两个方面进行初步预测,同时考虑用户项目的邻居信息集,根据用户项目评分的局部和全局影响对以上两种预测结果进行混合得到新的预测结果,最后根据三种预测结果的RMSE进行加权平均,有效缓解了冷启动、数据稀疏性等问题,同时提高了推荐预测结果的准确性。(2)针对Spark分布式计算引擎的计算效率问题,提出了一种基于RDD依赖关系的缓存管理策略,在Spark作业执行前根据RDD的Stage内部和Stage间的依赖关系,引入RDD引用计数与执行时间,针对跨Stage缓存RDD,计算两种能耗实现缓存在磁盘内存中动态切换,提高了内存资源的复用率。(3)设计并实现基于大数据的用户个性化推荐原型系统,并对各个功能模块进行测试,基本满足实际需求。
其他文献
目的研究山楂叶和山楂果提取物协同调节Ⅱ型糖尿病模型大鼠糖脂代谢紊乱的作用,并探讨作用机制。方法采用高糖高脂饲料结合小剂量腹腔注射链脲佐菌素构建Ⅱ型糖尿病大鼠模型,
精准扶贫工作在新时期备受党和国家的重视,党的十九大报告明确提出要坚决打赢脱贫攻坚战,让贫困人口和贫困地区同全国一道进入全面小康社会是我们党的庄严承诺,要动员全党全
随着新课改的全面推进,核心素养逐渐成为教育教学中的热门词汇,使初中语文教学迎来了改革和创新。核心素养下的初中语文教学要秉承以学生为本的教育理念,正视学生的个体差异,
这首《短歌行》,是曹操的代表作之一,诗中抒发他渴望招纳贤才,建功立业的宏图大愿。用四合体写来,内容浓厚,庄重典雅,感情充沛。诗的开头情结稍嫌低沉,但整首诗的基调还是昂扬奋发的
广西葡萄主要供应鲜果市场,依据广西气候特点和黑巴拉多葡萄品种花芽分化要求,科学施肥,合理修剪,确保黑巴拉多葡萄丰产优质栽培。
膀胱肿瘤是泌尿系最常见的多发病之一,男性多于女性,患者年龄多在50yr以上,多数以无痛性肉眼血尿,伴尿痛、尿频、尿急,甚至出现排尿困难和尿潴留就诊。现将我院1997/1999经B超诊断
莎士比亚十四行诗在英国经历了从边缘走向中心的经典化历程,在中国同样经历了从边缘到中心的接受过程。根据其译介、批评和出版的资料分析,莎士比亚十四行诗在中国的传播可以
长期以来,公立医院一直处于国家政策的扶持与保护下,在医疗市场竞争中占据着主导地位。但近年来,随着新医改政策的日趋完善和公立医院改革的不断深入,国家加强了多元化社会办
运用文献综述法进行论述壳聚糖的研安究进展,通过查阅大量文献及一些相关书籍并进行整理分析得出结论。主要从壳聚糖的理化性质,来源和制备方法,代谢途径,生物学作用以及用途等方
自改革开放以来,我国城市化进程持续加速,高层及超高层建筑不断涌现,在改善群众生活、工作以及居住空间的同时对建筑技术也提出了更为严格的要求。在对建筑工程进行评定的过程中