并行频繁项集挖掘算法研究

来源 :四川师范大学 | 被引量 : 4次 | 上传用户:gg106419
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
频繁项集挖掘用来发现数据项集中的频繁模式,在商品关联分析和超市促销策略决策中有着广泛的应用。但是,传统的频繁项集挖掘算法的时间复杂度较高,因此许多国内外的学者们致力于提高相关算法的性能。随着大数据时代的到来,传统的频繁项集挖掘算法往往受限于单台计算机有限的计算能力和存储容量,无法满足用户对于处理更大规模的频繁项集挖掘问题的迫切需求。随着大数据技术的发展,基于Hadoop平台的频繁项集挖掘算法在时间效率上相比于单机算法有了很大的提高。最新的内存计算框架Spark相比于Hadoop平台具有并行计算,Spark已成为目前工业界搭建分布式计算平台的主流框架。因此,本文将Spark框架和频繁项集挖掘算法相结合,研究在Spark平台下实现并行频繁项集挖掘算法,以提高频繁项集挖掘算法的时间效率。本文的主要工作包含如下几个方面。(1)学习研究了经典的频繁项集挖掘算法,包括Apriori算法,DHP算法,FP-Growth算法。(2)针对Apriori算法由K频繁项集生成K+1频繁项集的过程中,需要多次重复检测项集中的二项子集是否频繁的问题,提出了一种基于二维表的Apriori改进算法,用一个二维表记录二项子集是否频繁,从而减少了判断二项子集是否频繁需要多次扫描事务数据库的时间。实验结果表明,本文所提出的改进Apriori算法比原Apriori算法相比,可以明显减少算法的运行时间。(3)学习研究了Spark框架的相关技术,基于Linux操作系统,运用Java结合Scala开发语言,搭建了基于Spark平台的分布式开发环境,用于实现所提出的并行频繁项集挖掘算法。(4)针对DHP在第一次统计桶中项集数目时,会生成许多重复的候选项集,提出了基于Spark单节点的压缩DHP算法,该算法用形象地数字形式代替重复的项集数,并且在第一次扫描事务数据库时就实施,通过实际的试验证明,提出的这个压缩改进算法在时间复杂度上明显比没有采用压缩DHP的单节点DHP算法要低。(5)针对单节点只有一个计算单元的不足,研究了基于集群的Spark分布式计算框架。利用Spark多节点集群分布式结构实现了分布式DHP算法和分布式FP-Growth算法,充分利用了集群的优势。在模拟数据和UCI数据集Pumsb star上的实验结果表明,基于集群的并行策略比基于单节点的并行环境具有更好的时间效率。
其他文献
纵肋与横隔板构造细节是正交异性钢桥面板疲劳开裂最为频发的部位之一,发展具有高疲劳抗力特性的新型纵肋与横隔板构造细节,阐明其疲劳失效机理并确定其疲劳抗力,具有重要的理论意义和工程实际意义。以一种纵肋底板与横隔板固结形式的新型构造细节为研究对象,进行的足尺节段模型疲劳试验发现,纵肋底板焊缝在外荷载作用下的受压区出现了疲劳开裂,不考虑焊接残余应力难以解释这一现象。焊接残余应力对于构造细节疲劳抗力的影响问
近些年,随着无线通信技术的高速发展,尤其是4G通信广泛使用以来,系统的传输速度比以往更快,用户的体验效果更佳,这也刺激了人们对无线业务的需求,从而使人们对服务体验、大数
人脸识别的关键步骤是特征提取,目前的主流特征提取算法,有基于单张图像和基于多张图像,本文着重阐述了基于单张图像的特征提取算法,同时也对基于多张图像的特征提取算法进行
转向稳定性是事关车辆行驶安全的重要性能指标之一,在民用轿车中有电子稳定性控制等系统对车辆的操纵稳定性进行控制。但对于8×8轮毂电机驱动车辆而言,由于驱动形式、车辆结
随着导弹技术不断发展,集成处理器在其全寿命周期内所面临的任务更加多样化、复杂化,传统的集成处理器测试系统难以应对当前多变的测试任务。本文以提高集成处理器测试系统的
在基于模板变形的颅面复原方法中,复原的开始阶段需要在数据库中选取和待复原颅骨最为相似的参考颅骨,然后计算待复原颅骨和参考颅骨之间的形变,最后将这种形变应用在参考颅
作为未来提高城市道路通行效率和减少道路安全事故的利器,无人驾驶车辆近年来得到了极大地发展,并且国内外许多科研机构和高校仍在加大研发力度。但要使无人驾驶车辆在混杂的
京津冀协同发展能够实现京津冀三地优势的有机整合,增强区域的整体优势,是推动区域经济优化升级的必然选择。京津冀区域发展离不开中小企业,融资效率一直是中小企业发展的关键。新三板是中小企业融资的重要场所,京津冀新三板企业的高效的融资效率展现该地区经济结构和发展潜力。因此,深入研究京津冀新三板挂牌企业融资效率对京津冀协同发展具有重要理论意义和实践意义。近年来市场分层是新三板发展的一大特色,对于增加市场活力
为了文物复制保护工作的展开,本文对尹湾汉墓出土的缯绣衾被进行基础的测试分析,获得其基本结构参数及纹样、绣法、染色等资料,分析了蚕丝的老化特征。在现代丝绸上模拟了缯
《中华人民共和国民法总则》第三十三条规定,具有完全民事行为能力的成年人可以通过协商书面确定监护人,该规定在学理界和实务界被称为成年意定监护制度[1]。该制度承接了罗马法中“法是为人而立”的价值理念,是我国民法法典化进程中关于监护制度的一个重大突破,使我国成年监护体系朝着多元化、全面化迈进了一步。但是,《民法总则》第三十三条的规定过于概括和原则化,意定监护的法律体系尚不健全,仅是一个粗略的框架而缺乏