基于hadoop大数据框架的个性化推荐系统研究与实现

来源 :电子科技大学 | 被引量 : 25次 | 上传用户:wsttkl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息过载问题在当今世界越来越突出,目前有三种比较成熟的处理方法,即网站导航、搜索引擎以及推荐系统。网站导航通过收录著名网站并分门别类的方式解决信息过载问题。而搜索引擎通过为海量网页建立索引的方式解决信息过载问题。但是当用户不能明确表述自己的需求时,前两者就略显无力了,而推荐系统就可以解决此类问题。推荐系统通过分析用户历史行为记录,主动为用户推荐其潜在感兴趣的内容。但是随着互联网的高速发展,信息量也呈几何倍数增加,传统的推荐系统在海量数据下容易遭遇计算瓶颈。此外传统推荐系统未充分考虑用户兴趣多变且呈现一定的离散性的问题。针对以上问题,本文参考以往推荐系统设计方案,以搜索引擎下图书的个性化推荐系统为目标,研究并实现一种基于潜在语义分析和分片聚类的混合推荐系统方案。并使用hadoop大数据处理框架解决推荐系统海量数据处理问题。本文首先研究搜索引擎下用户行为数据采集方法。分析搜索引擎下用户行为类型及其特性,针对各数据类型及其特性使用不同的数据采集方式以及标准化方法,从而完成用户行为数据采集工作。其次,针对搜索引擎下用户行为独特性和用户兴趣多变问题,提出潜在语义分析模型和分片聚类模型分别挖掘用户行为大数据下的长久兴趣和即时兴趣。其中,潜在语义分析推荐模型以内容进行推荐,可以缓解用户和图书冷启动问题,并提升系统推荐的覆盖率。而基于分片聚类的协同过滤推荐模型中的将用户行为按属性和内容分片,可以抽取出用户不同时期的兴趣,从而进一步提升推荐性能,且推荐结果具有一定的新颖性。此外,针对分片聚类过程中搜索引擎下用户相似度计算问题,提出一种基于用户检索词的改进混合类型数据相似度计算方法。最后,基于Hadoop大数据处理框架研究用户行为预处理以及推荐算法的并行化方法,完成搜索引擎下图书的个性化推荐系统的设计与实现。通过引入Hadoop大数据处理平台,设计并行化的推荐算法,系统处理海量数据的能力有很大提升。通过基于潜在语义分析的推荐模型和分片聚类的推荐模型协同作用,搜索引擎下图书的个性化推荐精准度和覆盖率也有一定改善。最后,通过系统测试以及算法实验证明其正确性。
其他文献
<正> 陕西省华县磷肥厂硫酸车间,设计规模为1万吨/年。所用沸腾炉为一次扩大型。用耐火砖作沸腾炉内衬需用异形砖品种多,数量少,不易订到货,使建设进度受到影响。耐火混凝土
基于生活角度教学理念进行中职政治经济学课程教学,有利于学生掌握学科知识,改进教学方法,为国家培养综合性实用人才。在教学过程中应针对存在的问题,因材施教,激发学生的学
目的观察系统性护理干预在不稳定型心绞痛(UAP)患者护理中的应用效果。方法选取全州县人民医院2012年5月—2013年12月收治的UAP患者100例,随机分为观察组和对照组,各50例。对
由于降雨时空分布不均,我国玉米主产区在播种期经常遭遇季节性干旱,严重限制玉米播种、萌发和苗期生长,与之相适应的灌溉措施有待于完善。本研究以郑单958为材料,在控制条件
二叉树是数据结构中的一种重要的数据结构类型,因其非顺序的结构和多种遍历方法,再加上栈和队列的运用,递归和非递归算法的不同的语言描述,使其在遍历算法中显得非常复杂。本
本文从高丽参的市场现象、包装特征、规格排列、性状、显微特点等方面介绍正品和伪品(中国红参、日本红参)的鉴别方法。
本文首先提出问题,即什么是中美贸易战,随即分析了中美贸易战爆发的原因,进而引出贸易战对中国经济的影响,最后指出美国应该正确对待贸易逆差,摒弃贸易保护主义,拥抱开放主义
<正>《古诗十九首》有多重意蕴,我们今天就是要讲它意蕴的丰富。不知作者是造成《古诗十九首》多义性的第一个原因,因为你无从比附,这使它的意思反而丰富起来。《古诗十九首
<正>3D打印重新塑造了产品的研发和生产,并将个人、小企业和公司部门转变为"制造者"。这一技术已在诸多制造领域开始商业化运用,比如医疗和航空有谁会想到现代制造业不再需要