基于Hadoop的关联规则算法研究

来源 :中国计量大学 | 被引量 : 0次 | 上传用户:lonely
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据的爆炸式增长,如何高效地从大量数据中挖掘出有效的价值,成为了当今大数据领域的研究热点之一。数据挖掘在寻找数据背后的价值上起到了非常重要的作用,而关联规则挖掘是数据挖掘中一个重要的研究方向,用来发掘数据之间的关联性。Hadoop作为云计算最为核心的分布式平台,拥有分布式存储和并行计算等组件,为挖掘算法的并行化设计和实现提供了有力的支持。本文研究了基于Hadoop的关联规则挖掘算法,主要内容如下:首先,针对Apriori算法在支持度统计步骤数据扫描量过大,造成算法挖掘速度下降的问题,提出了一种改进的基于fp-tree的Apriori算法。该改进算法从减少数据扫描量的角度出发,结合fp-tree对数据进行压缩,通过尾元分区、动态缩减数据、快速支持度统计等方法对Apriori算法进行改进。并针对该改进算法在单机执行时无法有效处理大数据的瓶颈,将改进算法在Hadoop下进行了并行化设计和实现。实验结果表明,本文提出的改进算法不仅在单机执行时拥有较快的挖掘速度,并且在多节点集群环境下也拥有良好的加速比、数据伸缩率,可以适应大数据的挖掘。其次,对FP-Growth算法的并行化进行了分析,并对其中一种FP-Growth类并行算法——PFP算法进行了分析和改进。针对PFP算法在分组阶段没有考虑分组不均衡而造成整体挖掘速度不高的问题,提出了负载均衡的PFP改进算法。该改进算法构建了一种新的负载预估模型用于负载量预估,该预估模型先进行数据抽样,然后将项元在头表中的位置和项元在抽样数据事务中的位置相结合对负载量进行预估。同时对fp-tree进行剪枝,使得项元迭代次数减少,负载量得到缩减。实验结果表明,改进后的负载均衡的PFP算法拥有较高的整体挖掘速度,并且拥有着良好的扩展能力和数据伸缩率。
其他文献
本文介绍了盖包球化处理包的类型和设计特点,同时指出盖包球化处理较为适合本公司生产条件,并提出了设计和使用此包应注意的事项。实践证明,盖包球化工艺处理可以降低镁光和
目的:提高危重创伤病人救治成功率.方法:对263例危重创伤病人抢救过程及伤情、急诊处理与预后相关性分析.结果:抢救成功210例,死亡53例,抢救成功率70.6%.结论:建立健全的急诊
并政发[2017]58号各县(市、区)人民政府,综改示范区、不锈钢园区管委会,市直各委、局、办,各有关单位:为进一步规范政府行为,营造公平竞争的市场环境,推动我市经济健康发展,
【正】 山西省实验小学是一所有着深厚文化底蕴和良好社会声誉的省内唯一的省级实验小学。明确而清晰的办学思路、与时俱进的办学理念、优秀且勇于创新的教师队伍、充满育人
【正】 各县(市、区)人民政府,市直各委、局、办,各有关单位: 为认真贯彻实施防震减灾法律法规,依法推进我市防震减灾工作,根据山西省人民政府办公厅晋政办发[2003]58号文件
在常规净水工艺中,预氯化工艺具有杀菌灭藻、抑制滤池微生物滋生、破坏水中胶体颗粒的稳定性、便于混凝去除、减少嗅味等作用,因此已被多数水厂采用。然而,一些研究表明微量
目的:探讨血液、细胞、亚细胞和分子等不同水平的冻融损伤和低温保护的机制,进而能为冻融损伤的机制和防止冷冻损伤的方法奠定理论基础,而且还能为细胞、组织和器官低温保存
目的:观察肉苁蓉水提液对D-半乳糖致衰大鼠肝脏氧化损伤的保护作用.方法:采用D-半乳糖所致衰老模型大鼠,灌服肉苁蓉水提液6周,测定肝脏活性氧单位、Ca2+-ATP酶活性、肝线粒体
随着时代的发展,我国工业企业的发展水平也逐渐提升,同时企业所面临的竞争从国内延伸到国际,在这个复杂的发展局势下,企业面临的风险也逐渐增加,对工业企业的发展起到严重威
子痫是妊娠高血压综合征(简称妊高征)的最严重阶段,是围产儿及孕产妇死亡的主要原因之一,如果诊治不及时,将对母婴造成极大的危害。我院自1999-01~2005—12共收治子痫病人56例,现就