分布式关联规则挖掘方法及应用研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ZHUZHU1987251
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,网上购物也变的越来越普及,给用户推荐合适商品的推荐算法也变的日益重要。频繁模式是指频繁地出现在数据集中的模式,可以作为推荐系统推荐依据的一部分,本课题以关联规则算法为核心,结合其他机器学习算法处理过程组成一个基于百度贴吧用户的个性化贴吧推荐系统。我们的目的在于通过优化关联规则算法,在分布式部署的情况下产生规则,然后通过处理这些规则产生合适的推荐信息。由于单核计算机在CPU性能,内存大小等条件的制约下关联规则算法会遇到以下两个瓶颈:单点存储瓶颈,事务数据集过大时产生的局部数据结构可能溢出内存;低支持度瓶颈,在原数据集数据量和属性列过大而且算法设置的支持度过低时,可能产生的算法输出规则集空间远大于原始数据集。所以我们采用在开源的分布式计算框架下部署关联规则算法。传统的分布式关联规则挖掘算法会受制于节点之间数据相关导致的过高通信开销。本文采用PFP-Growth算法作为改进的目标算法,PFP-Growth算法通过数据分片步骤,能够保证各计算节点在进行频繁模式生成步骤时不需要进行节点之间的数据交互。本研究改进的对比算法是基于分布式思想的PFP-Growth算法,主要优化方向在于PFP-Growth算法在数据分片之后使得各节点之间数据不相关但是会出现任务负载不均导致运行时间长于算法实际执行时间的情况。本课题构建的推荐系统中不直接使用原始产生的频繁项集,本课题中首先在算法产生频繁项集的同时生成数据集的频繁闭项集和极大频繁项集;然后在精简强关联规则时,本课题通过一些过滤指标过滤可信度低或者高度冗余的强关联规则,最后通过对剩余关联规则的聚类然后对每个簇选取具有代表性的若干个规则得出最终的推荐结果。通过实验测试几种分片方案对比时间等因素,可以对比得出提出的分配方案的有效性,但是随着选取的分布式计算框架实现及原理的不同,可能会产生不同的调度方案导致时间有所差异,本研究在理论情况下比较实验结果。本研究利用分布式关联规则算法应用于真实的百度贴吧用户数据情景下,完成针对个人用户的贴吧推荐,在算法的基础上加上了一些过滤排序推荐规则,使得推荐信息更加精简。
其他文献
随着无线通信和移动计算技术的发展,人们对无线宽带接入提出了更高的要求。无线网络能够实现高容量、高速率的Internet接入,是未来无线通信逐渐替代有线网络通信的先决条件,
伴随着计算机技术的不断发展,互联网日趋普及,网络上信息数量不断扩大,用户可以更自由的获取信息,这满足了用户的信息需求。但是随着网络上信息的大幅增长,用户在有限的时间
谓词加密算法是可搜索加密算法领域的研究热点,提供了外包数据的密文查询功能。谓词加密算法中假设外包方(例如云服务商)会正确地执行查询算法,并将真实的查询结果返回给用户
互联网上存在海量的网络资源,如何有效利用、开发这些资源是当前的一个研究热点问题。随着企业竞争越来越激烈,诸多业务要求在较短时间内汇聚网络上的网络资源以求解业务问题
信息化是当今社会发展的趋势,随着计算机、通讯技术与医疗影像科学在医疗行业的进一步应用,我国医院信息化管理进程得到不断深入和拓展。国内部分医院已经建立起了独立的医院
代码变形技术是软件保护技术的关键技术之一,属于针对逆向工程与加密技术互补的安全分支。代码变形技术按照类型分为词法变形、数据变形和控制流变形。本文主要研究了基于控
随着互联网的不断发展,在线数据库的数量不断增多,DeepWeb模式集成的重要科学研究意义和显著的工程应用价值就凸现出来,但是由于这些数据库在地理上分布、管理上自治、模式上
随着文本数据的急剧增长,文本聚类方法已成为大家关注的热点。文本数据常用文档-词矩阵表示,基于这种表示方法大多数传统的聚类算法采用单向聚类方法,即要么只是对文档进行聚
自动图像标注是基于内容图像检索中重要而具有挑战性的工作,它可以在一定程度上解决基于内容图像检索中存在的语义鸿沟问题。如果能实现自动图像标注,那么现有的图像检索问题
近些年来,数据挖掘技术获得了人们越来越多的重视,因而成为一门新兴的学科,人们利用数据挖掘技术从海量的数据中寻找有用的信息,同时为了使数据挖掘系统发现知识的过程和结果