面向协同过滤推荐算法的均模型研究

来源 :太原理工大学 | 被引量 : 1次 | 上传用户:k5261715
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,近年来电子商务得到了迅猛发展,交易数据激剧增加,即使采用目前最有效的Hadoop、Spark等数据处理技术也仍然存在不少问题,例如一些在评测集上效果好的数据挖掘算法,或者难以实现,或者用于真实交易数据难以获得理想效果。探索面向真实应用的大数据处理方法是目前急需解决的课题。本文先对推荐系统的基本原理做了简要介绍,并对当前应用最为广泛的基于项目的协同过滤(Item-Based Collaborative Filtering,IBCF)算法作了深入的分析。然后,介绍了均模型对数据压缩的基本原理,并面向协同过滤推荐算法对均模型进行了较为系统的研究。最后,通过实验验证了基于均模型的IBCF算法在MapReduce框架下的运行效果。具体来说,主要完成了如下四方面内容:(1)协同过滤推荐算法评测研究通过对协同过滤推荐算法的分析,发现计算任务主要集中在项目相似性计算阶段,接着对各种项目相似性计算方法进行了评测,同时指出余弦相似性计算方法精度最高。而后对推荐算法的不同评价指标进行了评测研究,分析了各个评价指标的评估价值。(2)均模型及其改进研究在本课题组对均模型的前期研究基础上,对均模型的基本原理与性质进行了分析总结,并指出了原均模型对数据的处理存在分层模糊和信息失真的缺点。针对以上不足,提出了一种改进的均模型。改进的均模型在数据压缩过程中,更好的体现了分层的思想,克服了信息失真问题。在应用于IBCF算法的实验当中,改进的均模型有更理想的效果。(3)均模型的增量扩展研究互联网中的数据每天都在不断地增长,各类数据应用系统必须不断融入新增数据以保证系统的服务质量。例如推荐系统中每天都会有大量的新增数据产生,推荐系统必须及时将新增数据加入运算,从而保证推荐质量。本文以IBCF算法为应用背景,针对均模型的增量更新问题,提出了一种基于增量均模型的实现算法(Incremental Mean Model,Incremental MM)。Incremental MM通过项目评分预统计为各项目建立评分统计映射表,较好地支持了均模型的增量转换。在Movie Lens数据集上的对比实验结果表明,基于Incremental MM的IBCF算法增量更新效率较高,且推荐精度没有损失。(4)基于均模型IBCF算法的并行化实现为评估均模型在大数据处理上的应用效果,本文基于MapReduce框架设计了基于均模型的IBCF算法,并基于Netflix数据集,在Hadoop集群上进行了实验。实验结果表明,增量均模型能够在较大规模的数据处理过程中取得较好的应用效果。
其他文献
算法演示作为软件可视化的一个重要分支,在计算机算法教学和研究中扮演着重要角色,而算法演示中的人机交互对提高算法演示的积极效果有着非常重要的作用。近年相关研究指出,算法
信息检测技术是目前信息学科的前沿研究课题之一,在生产发展上起重要作用。尽管各种信息检测技术在不断地发展,一定程度上解决了检测领域上存在的问题,但对于怎样检测无法检
算法和建模是软件开发中两个最为重要的部分,算法设计以及实例建模的优劣直接影响着软件工程的质量,因此设计合理的算法并建立正确的模型是提高软件质量的关键。本文首先介绍
文本复制检测就是判断一篇给定文档是否抄袭﹑剽窃了或者复制于另外一篇或者多篇文档的内容,复制不仅仅是原封不动地照搬,还包括部分复制、对原作的移位变换﹑同义词替换以及改变
随着通信技术的发展和社会需求的不断变化,各行各业都架设了自己的网站,对外提供各种Web服务。网络的普及和应用对计算机的能力提出了更高的要求,但传统高性能的计算机在性能
随着社交网络的普及以及移动智能设备的发展,基于位置的社会网络(Location-Based Social Network,LBSN)逐渐进入人们的生活。LBSN通过将用户移动行为和地理位置信息关联,充分
随着互联网的快速发展和成像设备的迅速普及,图像和视频成为信息的主要传播方式并爆炸式的充斥在我们的日常生活中。为了让计算机主动地分析和处理获取到的信息,计算机视觉(C
数据挖掘作为一个从大规模海量数据中提取隐含的有价值信息和知识的过程,已经被人们广泛地应用于社会、经济、生产、生活的各个领域。但是数据挖掘有其局限性:数据量必须要大
阴影是不透明的物体阻挡光线而产生的黑暗范围。阴影作为现实生活中物体对于光源照射的投影,已经成为计算机图形渲染中增强真实感的一个不可缺少部分。阴影的边界部分可以帮
雾化渲染技术是3D实时图形渲染技术重要分支之一,也是高级3D场景渲染特效的支撑技术。然而,当前很多3D图形引擎和3D游戏引擎中的场景雾化渲染主要采用比较传统的雾化渲染方法