基于Hadoop的用户个性化推荐研究

来源 :武汉理工大学 | 被引量 : 3次 | 上传用户:wenzl1999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
个性化推荐系统是针对每个用户的不同需求,提供满足他们偏好和兴趣的信息,在应用初期取到了不错的效果,但随着大数据时代的来临,带来了信息超载问题,传统的个性化推荐系统也面临着诸多挑战,如推荐时间过长、精准度不高和扩展比较困难等问题。除了单纯的寻找更加高效的推荐算法,推荐系统服务器性能提升也是要考虑的问题。为了应对海量数据处理提供高效的服务,已经提出了若干基于分布式的系统解决方案。而Hadoop正是这样一个高效的、可拓展的分布式计算平台,因此可以将推荐系统应用于Hadoop中,以应对大数据提供高质量的推荐服务。本文的主要研究工作如下:1、本文对个性化推荐系统的结构、主流推荐算法和常用评价指标进行分析,结合目前面临的挑战引出了基于Hadoop构建个性化推荐系统的意义。然后对Hadoop的关键技术进行了研究。2、具体研究了基于用户的和基于项目两种协同过滤算法,然后分析了传统协同过滤算法存在的问题,提出基于矩阵填充和时间上下文的推荐算法。针对数据稀疏性问题,提出采用矩阵填充的手段进行缓解;考虑到用户兴趣随着时间推移而慢慢发生变化,引入时间上下文因素,进行预测评分时,加入时间函数权重,突出用户最近行为对用户兴趣变化的影响。最后结合Hadoop平台特点,通过MapReduce编程模型对该算法实现并行化。3、对本文提出的改进算法进行实验,测试三种相似度计算方法的优劣,然后比较在不同邻居数和数据稀疏性条件下三种算法的性能差异。4、针对于提出的算法设计并实现了基于Hadoop的个性化电影推荐原型系统。详细的描述了每个功能模块的作用,最后介绍了该原型系统的推荐流程。本文提出的基于矩阵填充和时间上下文的推荐算法可以提高推荐质量,在一定程度上缓解数据稀疏性问题,并行化的算法在Hadoop集群中运行时,面对大规模数据集也表现出良好的性能。
其他文献
聚类是重要的数据挖掘技术,在海量数据统计、网络分析及医学图形图像自动监测等领域具有广泛的应用背景。聚类就是根据数据的内在特性将数据对象划分到不同的组(或簇)中,使得
目前,并行计算技术是计算机研究的一个热点。在各种并行系统中,机群系统以其显著优势已经成为高性能计算领域的一种主流平台。结点处理能力的不断加强使得内部结点机之间的通信
随着Internet的普及和全球化程度的提高,为降低产品的开发成本和提高开发效率,产品设计正由传统的串行工作向支持并行工作转变,从孤立模式向协同模式转变。计算机支持的协同
图像配准是数字图像处理中的一个重要的研究方向,也是计算机视觉和模式识别领域中的一项重要的研究课题,图像配准已经在军事、航天、模式识别、遥感监测、医学图像处理等方面
随着Internet的迅速发展,网上信息飞速增长,人们面对种类繁多的各类信息,却缺乏有效地自动获取信息的方法。本文针对传统的推送技术存在的忽视用户需求、推送信息针对性不强
网络与电子信息技术己经渗透到人们的日常生活中,它改变了传统的事务处理方式,对社会的进步和发展起重大作用。与此同时,人们也越来越意识到信息安全的重要性。在自动化办公
随着视频会议、视频点播、远程教育等分布式实时业务的广泛应用,作为其核心技术的QoS组播技术引起了人们的高度重视。组播是一种有效的支持多点通信的机制,它采用树转发结构,
随着技术的快速发展,互联网的使用人群急剧增长,数字化信息呈爆炸性增长,大数据的分析处理成为研究的热点。仿照Google公司MapReduce计算模型和GFS文件系统设计思想实现的Had
数字图像的修复是图像处理中一个重要部分,主要是针对图像中损坏的部分,利用其周围未被损坏的图像信息,按照一定的规则进行修复,使得修复后的图像接近或达到图像原来的视觉效果。
数据挖掘目前已广泛应用于现代社会的各行各业,但是大多都是针对历史数据进行分析与处理,人们追求的不再只是发现历史数据中隐藏的规律来解决实际问题,而是想在竞争激烈的社