基于Hadoop的并行关联算法的研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:Rqs_ToT
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,数据作为公共组织、企业越来越重要的资产,正历史性的改变着企业资产的发展进程。作为数据挖掘的一个重要研究方向和技术,关联规则旨在从大量数据中发现某些特征之间或者数据之间的相互依赖的关系。目前传统关联规则挖掘算法在处理大规模数据时可能面临频繁的I/O操作、计算量过大、时空消耗严重等问题。随着云计算平台Hadoop充分的发展,关联规则挖掘算法在分布式计算框架MapReduce的实现将有着广泛的应用场景。本文基于对关联规则算法基本概念及经典算法的深入理解,在现有算法基础上进行改进,提出R-SLI算法。该算法引入频集树概念,将对频繁项目集的挖掘问题转化为挖掘满足条件的子结点问题,并改变了原算法对矩阵的使用方式,使得矩阵能够保留数据库的完整信息,避免了动态更新阶段因信息不足而重新查找数据库的可能。在研究并行算法的设计策略后,本文对R-SLI算法实现了基于MapReduce计算框架的并行实现,提出了P-MT算法。算法根据MapReduce作业输入输出<Key,Value>键值对的特性,将矩阵按行拆分在数据流中传输,通过各节点生成统一频集树快速挖掘所有可能的候选频集,实现分布式的高效、准确的关联规则挖掘。最后实现P-MT算法,并在不同的实验阈值和实验数据集下测试算法性能。通过与其他并行算法的横向对比,得出该算法确实具有更好的时间性能。
其他文献
《瞭望》周刊原总编辑陈大斌最近在《炎黄春秋》撰文,回忆了他最后一次看望陈永贵的经过,现摘编如下以飨读者  我最后一次拜访陈永贵,是1984年11月下旬的一天这时的陈永贵,已经是没有任何领导职务的一个平民百姓了他住在北京木樨地的一座公寓楼房里  党中央对陈永贵的生活待遇作了合情合理的安排据说,是胡耀邦亲自发话,说陈永贵年纪不小了,就不让他回山西老家去了,就留在北京住下来,按行政13级(当时的高级干部
本文的出发点是IEEE组织制定的IEEE802.16协议标准。在标准的制定和演化的过程中,WiMAX论坛组织应运而生。由于有Intel等IT巨头的加入,越来越多的企业加入使得这个组织日益庞
在耐旱性筛选设施内对一套水稻重组自交系群体(共185个株系)进行两年的水分胁迫和非胁迫处理,调查每穗颖花数(SNP)、单边柱头外露率(PSES)、双边柱头外露率(PDES)和柱头总外
随着计算机图像处理和模式识别技术的发展,计算机植物种类的自动识别与分类也就成为了可能。目前植物识别和分类主要由人工完成,它的主要依据是植物的外观特征。由于植物的外
动向一:由买方市场向卖方市场转化过去,低级别的官员想要向上爬,往往会主动向当权者或者行政一把手送礼、送钱,一旦有合适的机会、合适的位置,收礼一方就会考虑安排。此时,收
内窥镜是目前医学科研与临床实践中最基本,也是应用最为广泛的观察工具之一。内窥镜成像对病灶的诊断和治疗有极其重要的作用,尤其在肿瘤病变的诊疗方面有着重要的临床应用价值
回眸上个世纪中华巾帼英豪,贺子珍无疑是最具传奇色彩并兼具悲剧性的人物之一。当笔者为写作《贺家兄妹》而采访贺子珍亲嫂李立英时,她首次披露了小姑贺子珍的内情,可谓“故
本文分析了当前人事档案管理中存在的问题,提出了在新形势下如何做好城建人事档案管理工作的对策,供大家参考。 This article analyzes the existing problems in the perso
在信息化进程中,引入XML技术研究数据的集成和共享是当前的研究热点。网络发展导致全球化竞争愈演愈烈,为了提高竞争力,企业越来越重视体现用户个性差异的个性化信息服务。目
Java虚拟机是Java的核心技术之一,是Java技术实现“平台无关”特性的基础。Kaffe虚拟机是一款能够净室执行的开源Java虚拟机,是需要执行Java应用程序的开源嵌入式系统的很好