基于Hadoop的并行混合推荐算法及工具研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:yangxfg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的发展,互联网已经融入到人们生活的方方面面,用户可以通过互联网轻而易举的获取大量信息,然而在享受这种便利的同时,用户也开始遇到信息“过载”的问题。面对海量的信息,用户往往难以取舍,并从中提取出真正需要的内容。搜索引擎技术,通过对关键字的检索,在一定程度上缓解了这一问题。然而,基于搜索引擎的信息检索技术,会给用户呈现大量无关或者不感兴趣的内容。如何在信息过载的情况下给用户提供更个性化更贴近用户需求的信息,成为了互联网发展中的热点问题。而推荐系统,被认为是当前解决以上问题,给用户提供更加个性化信息最有效的工具之一。推荐问题从根本上说就是从用户的角度出发,代替用户去评估其从未看过的产品,使用户不只是被动的网页浏览者,而成为主动参与者。准确、高效的推荐系统可以挖掘用户的偏好和需求,从而成为发现用户潜在的消费倾向,为其提供个性化服务。协同过滤算法是一种基于统计的推荐系统算法,由于该算法模型简单、训练复杂度低、推荐性能优秀等特点,广泛应用于各类推荐系统之中。它通过收集用户的历史行为信息,通过相似性的计算,来搜索与当前用户具有相同或者相近兴趣爱好的其他用户,形成近邻。然后,根据近邻用户的历史行为,例如用户对物品的历史评价信息,来预测当前用户对物品的评价或者可能的行为。然而,传统的协同过滤算法,在较好的满足了推荐系统的需求的同时,也面临着一些系列的挑战,例如数据的稀疏性、相似性度量的准确性、实时性和可扩展性等。如何应对这些挑战,是推荐系统需要解决的重要问题。本文的主要工作如下:1.本文针对传统相似性度量方法对于内容信息利用不充分,度量不准确的问题,提出了一种基于配对的相似性度量方法。该方法利用物品间的属性信息,在物品属性的纵向和和横向两个不同层面分别求出物品的属性内相似度和属性间相似度。属性内相似度和属性间相似度再进一步结合成配对相似度,利用配对相似度结合基于内存或基于模型的协同过滤算法构建了混合推荐算法。实验结果表明,该通过相似度度量方法构建的混合推荐算法能有效地提高推荐的精确度。2.本文针对海量数据环境以及配对相似度本身的计算复杂度造成的可扩展性问题,选取了MapReduce分布式计算模型和Hadoop分布式计算系统作为应对策略,利用分布式计算的办法来加速配对相似度的计算速率。实验结果表明,该并行化方法提高了在海量数据下基于配对相似度的混合推荐算法的可扩展性。3.本文介绍了一个基于云计算平台的海量数据工具箱的设计和实现,这里本文将会介绍该工具箱的四个功能模块,它们是集群管理模块、数据集管理模块、算法管理模块与任务管理模块,然后以推荐算法为例介绍了用户使用该工具箱的详细流程。
其他文献
该文首先分析了人工神经网络特别是BP模型的原理,提出了用人工神经网络方法进行指标预测的可能性,设计并实现了指标预测系统,其中包括数据的收集与预处理、模型的确定、对指
该文阐述了系统总体设计思想和设计方案,详细设计方案,以及它的计算机实现.该系统是一个逆向软件工程的文档生成器,目标是提供对实际程序的分析以及可视化显示的工具,协助完
数据库更新是目前演绎数据库研究的一个重要的课题.实现数据库更新时遇到的重要问题就是如何进行视图更新并维护数据库一致.该文首先给出了对整个演绎数据库,包括EDB、IDB与I
该文首先分析了电子商务面临的安全威胁和对信息安全的需求,阐述了身份认证和数字签名在电子商务中的重要地位,从而展开对信息安全技术的讨论.论文接着介绍了密码学的基本概
计算机网络互连发展到今天已经形成一个大规模的复杂系统,这样一个系统所展现出的丰富的复杂行为,及其本身特征及其产生机制的研究,已经成为有关计算机网络研究中的一个前沿领域
粗糙集(Rough Set)理论在处理模糊分类、属性约简等数据挖掘基本问题时有着广泛的应用。粗糙集属性约简运行效率并不高,而当今社会正处于一个信息爆炸的时代,对于大规模数据
该文首先介绍了在现代社会,语料库伴随着计算机的发展,越来越被人们所重视.同时,计算机技术的发展,也为语料库,特别是蕴涵丰富内涵的汉语语料库的研究带来了飞跃性的进步.接
近年来,随着智能设备的普及,上下文感知程序的应用也变得越来越广泛。这些程序能够根据设备中各种传感器采集到的上下文信息,获知当前环境的状态,进而给用户提供对应的个性化
该文分析了国内外对签名鉴别过程中特征提取和特征匹配的一些常用方法.提出了一种基于时序动态特征的签名鉴别方法,即把签名的静态特征和动态特征合理的结合起来进行鉴别,提
存储区域网络(Storage Area Network—SAN)为日益增长的信息存储和管理需要提供了很好的解决途径,但也带来了新的挑战,即如何高效地进行SAN管理的问题。实现SAN的管理离不开存