基于MapReduce框架的关联规则算法研究与优化

来源 :电子科技大学 | 被引量 : 4次 | 上传用户:liwuyi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则挖掘是一种在大型数据库中挖掘隐含内容和知识的重要技术。自从被第一次提出到现在,关联规则挖掘问题受到了研究者广泛的关注。典型的应用是购物篮分析,它分析顾客所购买的商品之间的联系。该算法发现并分析在数据库中满足用户自定的最小支持度和最小置信度的数据项之间的关系。然而,实际生活的各种应用中,产生的数据库事务集中的很多数据项的出现频率是非常高的,但是有的数据项出现频率却是很低,但是这些数据项在现实生活中同样的重要。如果数据项在要挖掘的数据库事务集中出现的频率相差很多,可能会产生下面的一些问题:如果将最小支持度设置得太高,则在挖掘关联规则过程中可能会丢失掉出现频度少但同样重要的数据项支持的关联规则。为了同时发现出现频度高的和低的数据项中所蕴含的关联规则,只能将最小支持度设置的很小。但是,这样将会导致挖掘出的规则组合爆炸,因为挖掘出的大部分规则是没有意义的。在数据挖掘技术中这种两相矛盾的现象称为稀少数据项问题(rare item problem)[3]。幸运的是一种使用多重最小支持度的方法被提出来改进寻找在数据库中存在的稀少关联规则。然而,大多数的挖掘算法只能处理一些很小规模的数据,当面临较大规模的数据时,大多数算法执行效率不满足实时大数据驱动的决策需求。云计算可以通过提供正确的编程模型来提高大型数据集的处理速度。云计算的新颖之处在于它提供了无限便宜的存储和计算能力。因此,云计算为海量数据的存储和挖掘提供了一个平台。MapReduce是一个实现处理大数据集的大规模并行的编程模型。它隐藏如并行化,容错,数据分布和负载平衡等问题,致力于其应用本身计算问题的算法设计而不用去担心一些并行化的细节问题如输入数据在多个节点的划分和存储等。MapReduce成为一个可以从TB甚至PB级的数据集中有效的挖掘出频繁项集的并行计算模型。针对现实数据库事务集中,不同数据项的重要性和出现概率各不相同,提出一种基于数据项在事务数据集中出现的频率来自动设置最小支持度的模型,同时基于MapReduce框架提出一种并行的PCFP-Growth关联规则挖掘算法。从而挖掘出那些覆盖较少数据但却有意义,用户可能更感兴趣的关联规则。经过最终的实验结果对比分析,表明该算法满足对于不同数据集的挖掘关联规则的需求,并且在处理海量的数据库事务集时能有效地提高挖掘关联规则的效率。
其他文献
体育观众是竞技体育的重要组成部分,体育观众的心理与行为研究也是运动心理学的重要议题。以Web of ScienceTM数据库中有关体育观众心理与行为主题的209篇文献为研究对象,旨
对PrV Ea TK-/gE-/gI-基因缺失疫苗的安全性和保护力进行了系统的研究.试验表明,该基因缺失疫苗105.0TCID50和106.0TCID50病毒剂量对妊娠母猪、新生仔猪和育肥猪均是安全的,
从历史视角梳理新中国成立以来我国财政农业支出的演变过程,我国财政农业支出经历了“多取少予”“改革调整”和“多予少取,全面减负”三个时期。财政农业支出市场化趋势明显
<正>宽QRS波心动过速是急诊较为常见的、疑难的的快速心律失常,导致QRS波增宽的共同机制是将正常两侧心室同时除极改变为单侧心室的顺序除极。快速识别宽QRS波心动过速的性质
通过数值仿真和实验方法对超前支架迈步过程的动态响应特性进行研究。使用块系覆岩理论构造超前支架与顶板的耦合动力学模型。以超前支架与顶板接触刚度变化模拟超前支架的迈
9月11日,上交所发布《上海证券交易所科创板上市公司自律监管规则适用指引第1号—规范运作》,以现行部分持续监管业务规则为基础,进行整合、提炼、更新,结合科创公司特征及近
为简化永磁无刷直流电机控制系统的结构,同时又能使其具有较快的转矩响应速度和较小的转矩脉动,将一种简单的直接转矩控制(DTC)引入永磁无刷直流电机中。此简化的DTC利用电机旋转
随着城镇化进程的加快,越来越多的进城务工人员子女随迁到城市学习。因为农民工随迁子女与城市青少年成长环境、家庭环境诸多方面的差异,导致农民工随迁子女在融入新的学习环
在风起云涌的大革命浪潮中,毛泽东经过不辞辛劳的实地考察和对中国国情的深刻分析,认定中国革命只有紧密依靠无产阶级最广大和最忠实的同盟军——农民,结成工农联盟,并且在广
基于回归分析和因子分析,结合52个“一带一路”沿线国家,得出影响旅游需求的因素,并通过因子分析得出需求潜力的得分以及排名。结果表明:对外经济开放程度、经济因素、消费水