云计算环境下关联规则算法的研究

被引量 : 0次 | 上传用户:dragondk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的发展带来了数据量的爆炸性增长,人们面临的问题不是缺乏足够的信息可以使用,而是面对如此多的数据如何找到有价值的信息。对这一问题,数据挖掘显示出了强大的生命力,数据挖掘能够找出数据之间的潜在联系。关联规则是数据挖掘中的一项重要内容,它反映了一个事物和其他事物之间的依赖或关联。从广义上讲,关联分析是数据挖掘的本质。但是随着关联规则的广泛应用,很多方面不能满足现在的需要,如何提高关联规则算法的效率、适应性、可用性等方面变得日益重要。自从Google推出云计算概念以来,随后亚马逊、微软、惠普、雅虎、英特尔、IBM等公司都宣布了自己的“云计划”,云计算是未来3-5年内全球范围内最值得期待的技术革命。云计算的设计理念是让资源动态分配、按需服务,并且以低成本处理海量信息。云计算是网格计算、分布式计算、并行计算、效用计算、网络存储、虚拟化、负载均衡等技术和网络技术发展融合的产物。正是因为云计算有强大的数据处理能力,通过借助云计算中的一些技术运用到数据挖掘中,将会明显的提高效率。本文的主要工作如下:(1)介绍了云计算中的一些相关技术和一些开源云计算如Eucalyptus、Enomaly ECP、Sector/Sphere和Hadoop,重点分析了Hadoop中的核心技术HDFS、MapReduce和HBase。(2)针对传统的关联规则算法即Apriori的一些缺陷和Hadoop在大的集群中表现出来的优势,设计出了MapReduceApriori算法,它用HDFS分布式文件系统存储数据,以MapReduce方式实现并行处理。该算法能在海量数据中发现频繁项集。实验表明,它对海量数据的处理效率明显比传统算法高,且表现出了很好的加速比。(3)以MapReduce为基础,设计出了MapReduceGenRules算法,它的处理过程简化为Map和Reduce两个阶段,在集群中可以并行的产生规则,大大的缩短了计算时间,表现出了良好的性能。
其他文献
高校公共体育教学是高等教育不可或缺的重要内容,是衡量高校整体教育工作的重要标准之一。湖南省民办普通高校经历了短短二十多年的发展,其公共体育教学开展得如何,具有哪些
主成分分析(Principal Component Analysis,PCA)算法能够将高维问题简化成低维问题,具有简单、快速,且主成分之间相互正交,可消除原始数据成分间的影响,基于PCA算法的人脸识
近年来,可持续发展理念深入人心.如何在工业生产的环节中做好环境保护工作,成为人们津津乐道的一大话题.对于预拌混凝土企业来说,如果能有效地利用好污水综合利用技术,那么无
精神病人由于精神上的缺陷而无法认识和控制自己的行为,对本人和社会具有一定的危险性。强制医疗乃是针对肇事肇祸的精神病人,在刑罚无法对其适用的情况下,达到社会防卫、人
本课题针对目前厚膜发热元件价格较高的问题,进行了降低成本的研究。厚膜发热元件价格之所以会居高不下,是因为电阻层中使用贵金属作为功能相,所以为了降低成本,需要使用廉价
随着珠三角区域经济一体化发展的趋势加快,深莞惠经济圈作为其核心之一,区域经济中的产业升级和调整成为其经济发展的必然趋势。产业同构化系数是衡量区域经济一体化的重要指
多指标综合评价概指对以多属性体系结构描述的对象系统做出全局性、整体性的评价,是利用数学及统计方法,将反映评价对象不同属性的多个统计指标的信息转化成无量纲的相对评价
随着CCD(Charge Coupled Device)技术的不断发展和数字化时代的到来,对CCD信号的性能、数字化提出了更高的要求。同时,它的应用也越来越广泛。而噪声是CCD的重要参数,它是决
化工过程系统由工艺过程、换热网络和公用工程三个子系统组成。其中,公用工程子系统担负着为工艺过程提供能量的重任,其用能情况好坏直接影响整个化工过程系统的能量使用效率
信用是市场经济的根基,征信是建设和巩固信用体系行之有效的途径。现今我国市场经济迅速发展,大众对征信服务的需求不断增加,促进这个行业健康、规范的发展是完善我国市场经