频繁项集挖掘算法的并行化研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:h515295585
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为数据挖掘领域的主要研究对象,关联规则挖掘能够发现关系数据集中数据项之间有趣的关联信息,而关联规则挖掘工作的主要开销是来自频繁项集挖掘。然而,传统的频繁项集挖掘算法的效率并不高,并且伴随着计算机软硬件性能的提升,基于并行计算的数据挖掘技术开始成为学术界的研究热点。因此,本文主要研究如何基于传统的串行挖掘算法进行改进以及如何利用并行化技术来提升频繁项集挖掘算法的性能。实际应用中,事务数据集并不一定是静态的,因此频繁项集挖掘算法一般分为静态挖掘算法和动态更新算法。基于这两类算法存在的不足以及并行计算技术,本文主要研究传统算法的串行和并行改进方案,并且着重研究经典的静态挖掘算法FP-growth和动态更新算法FUP。在原有算法的基础之上,本文提出了基于FP-growth改进的串行挖掘算法和CUDA GPU并行挖掘算法,以及基于FUP的CUDA GPU并行更新算法。FP-growth是一种基于递归和模式增长的高效挖掘算法,然而递归模式会造成巨大的时间和空间开销。因此,本文提出了基于FP-growth改进的非递归算法NRFP-growth和并行算法GPFP-growth。其中NRFP-grwoth算法引入FP-array数据结构来存储事务数据集,并利用ItemPoss-map结构来挖掘频繁项集。而GPFP-growth算法则建立在NRFPgrowth的基础之上,利用GPU多线程加速频繁项集的挖掘过程。FUP是一种串行的频繁项集增量更新算法,其主要思想基于Apriori算法,因而存在着大量候选项集产生和数据库重复扫描的问题。因此,本文提出了基于FUP改进的并行算法GPFUP,该算法通过引入前缀树结构加速候选项集的生成和过滤步骤,并利用位表结构完成GPU端的支持度并行计算任务。为了测试改进算法的性能,本文以经典的串行算法为基准,选取不同的数据集测试了串行改进算法的时间和空间性能以及并行算法的加速效果和可扩展性。实验表明,基于FP-growth改进的串行挖掘算法和基于GPU的并行挖掘算法均具有更好的挖掘性能。
其他文献
在当前已经进入互联网时代的大背景下,随之出现了一种新的财产形式,即网络虚拟财产。近年来,关于网络虚拟财产的案件屡屡发生,特别是关于网络虚拟财产窃取类的犯罪案件在此类
面对飞速的经济增长与社会发展,5G移动通信系统提出了更高的性能要求,如更高的数据传输速率、更密集的无线连接等。传统的正交多址接入技术,如时分多址、频分多址、码分多址技术等,给不同用户分配不同的时频资源以避免相互干扰,新型非正交多址接入(NOMA,Non-Orthogonal Multiple Access)技术允许多个用户在相同的时频资源上进行通信。随着无线连接密度的急剧增长和频谱资源的有限性,N
给定某并发程序执行轨迹,基于约束求解的并发测试方法将并发错误模式和执行轨迹的可行性要求转化为一组约束条件,通过约束求解生成暴露并发错误的并发执行交织。该方法具有无误报、低漏报率等诸多优势。并发程序在开发过程中会经历多次修改,产生多个程序版本。在并发程序的演化过程中,直接对各个版本的基于约束求解的并发程序测试,由于未有效利用版本变化信息,而造成重复测试,致使并发程序回归测试面临效率较低等问题。为了提
徐青甫是民国时期江浙士绅代表之一,他多次担任浙江省政府要职,也曾代理主持浙政。他的经济学著作丰富,其经济学思想主要体现在《经济革命救国论》、《物价问题之研究》和《
随着通信技术和半导体技术的发展,信息的传递越来越便捷,现代通信使人与人之间的联系十分紧密,万物互联互通成为了“物联网”的发展目标。窄带物联网是一种发展迅速的物联网协议,可以在LTE网络上升级和部署,对射频收发机和频率合成器提出了更高的要求。在先进工艺条件下,宽带全数字锁相环更适合于物联网应用场景。数控振荡器作为全数字锁相环频率合成器的核心模块,对整个系统的性能具有重要影响。因此宽带高精度数控振荡器
作为人工智能的核心算法之一,神经网络对训练速度、准确度、架构复用性的要求越来越高。目前训练一个中型规模的多层神经网络需要亿量级计算量。传统架构并行度低、复用性差、扩展能力弱等局限性已经不能满足神经网络在并行计算中的需求。因此,本文对基于流式分布式架构的神经网络进行研究,以满足训练速度提升、架构复用和计算能力扩展的需求。本文首先提出了一种基于Storm流式分布式架构的神经网络训练模型NN-S(Neu
改革开放以来,我国制造业发展迅速,建立起了完整的产业布局体系,推动了城市现代化发展和区域经济空间优化布局,尤其是在重塑城市经济空间结构方面。伴随着劳动力、资源利用和
随着无线通信技术的不断发展、智能终端的不断普及和室内基于位置服务(Location Based Service,LBS)的业务需求的不断增长,近年来室内无线定位技术受到越来越广泛的研究。基于无线局域网(Wireless Local Area Network,WLAN)的室内定位技术得益于成本低、覆盖范围广、便携性等优势成为了室内无线定位的研究热点。本文研究了不同的室内定位技术和室内定位系统,分析了
微博作为热门的社交媒体之一,具有及时性、便捷性、交互性以及用户使用体量巨大等特点。这些特性不仅使得监管的难度增加,也造成微博平台中充斥着虚假、消极、负面言论。因此,社交媒体舆情分析系统的研发显得尤为迫切。本文研究工作主要包括以下内容:1)社交媒体微博数据采集及预处理。本文以新浪微博中有关“7.5杭州女子失踪案”的数据作为研究对象,采用网络爬虫技术并按照不同策略获取数据,实现数据的采集。同时,对获取
以YBa2Cu3O7-δ(YBCO)为代表的第二代高温超导带材具有优异的电学性能,在电力传输、电能存储、强磁场等领域有着非常广阔的应用前景。本研究基于离子束辅助沉积(IBAD)技术和金属
会议