基于集群环境的并行频繁子图挖掘算法PG-Miner研究

来源 :兰州大学 | 被引量 : 0次 | 上传用户:qqqqq721106
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从大型数据库中挖掘频繁模式是数据挖掘研究的一类基本问题,也是该领域最具挑战性的一个研究热点。其中频繁子图挖掘旨在解决结构化模式挖掘问题,诸如化学,生物学,WWW应用等领域的关联性问题。由于实际应用中具有数据规模大,抽象出的图结构复杂等特性使得高性能的子图挖掘算法一直是该领域研究中的一个难点。本文首先提出了并行频繁项集挖掘算法HPFP-Miner,并以此为基础,提出一个高效的并行频繁子图挖掘算法PG-Miner。论文主要内容包括:1、并行频繁项集挖掘算法HPFP-MinerHPFP-Miner为了能够在并行处理中生成完备且不冗余的结果集提出了两个数据结构HPFP树和HPFP-Forest来压缩存储频繁项集信息,与FP树的根为"null"不同的是,每一颗HPFP树都独立完整的表述了当前数据库中以其根节点为前缀的模式,HPFP树中反向表示父节点到子节点的指针。同时,所有HPFP树通过指针链接形成HPFP-Forest,到执行时再由主节点根据从节点的多少向各处理节点分发HPFP树,这使得算法具有更高的可扩展性,并且进一步也容易控制各处理节点的负载。2、并行频繁子图算法PG-Miner设计与实现在这部分,我们提出一种新的并行频繁子图挖掘算法PG-Miner。该算法以尽可能大的并行粒度将频繁子图挖掘算法中时间复杂度最高的子图同构判断过程分发到多台处理器上并行处理,使得算法的执行时间随着处理节点的线性增加而线性减少。该算法的主要策略是,首先将整个挖掘过程分成两部分,由主处理节点来生成频繁子树集,接着将生成的子树集分发到从处理节点。其次,将频繁子图边扩展及同构判断这部分频繁子图挖掘算法中时间复杂度最高的部分并行处理。经过算法分析得出,本文提出的算法时间复杂度为O(2n*n2/k),其中n是图集中的频繁边数,k是用于并行计算的从节点个数(总节点个数为k+1)。本文分析了该算法的时间复杂度,并在不同的真实和模拟数据集上验证了算法的可行性。
其他文献
商务复杂系统的建模仿真近些年得到了广泛的关注,国内外的众多公司企业、科研机构都投入了很大的精力。本文针对供应链的库存时间序列,采用的定性建模与仿真方法与以往的研究方
21世纪的社会正随着互联网和个人计算机迅速发展,得益于此,互联网上流通的信息也在不断地增长,并已经成为当今人类工作和生活中紧密联系的一部分。与此同时,由于万维网是一个
信息技术与因特网的迅猛发展为多媒体信息的存取和交换提供了极大的便利,但同时数字化技术精确、廉价、大规模的复制功能和因特网在全球传播的巨大能力,为版权保护带来了极大
网格技术是在当前各领域对计算资源和计算能力不断增长的形势下发展起来的,它是并行与分布式计算技术的一个重要方向,其目的是实现网格虚拟环境上的资源共享和协同工作。由于
电视节目的数字化是这个信息化社会发展的一个必然趋势,数字电视的设备管理系统就必不可少,而要更直观的管理数字电视设备,设备网络的拓扑信息管理不可或缺,这一功能的实现,将极大
在这个信息和科技高速发展的时代,企业的经营理念由“以产品为中心”转向“以客户为中心”的同时,企业也不断加快信息化建设的步伐,目前客户关系管理系统(CRM)已经成为帮助企业管
随着气象数据库管理系统、数据挖掘技术的发展,天气预报预测系统的研究和应用正在成为研究热点之一。天气预报预测系统能为天气预报决策者提供更好的计算机辅助决策手段,对提
当今的网络监控系统对通信网络来说具有至关重要的意义,他们周期性的收集各种网络性能数据,找出性能异常,并分析问题的根因,其效力和效率决定了网络的服务质量(quality of se
随着计算机技术的快速发展和社会需求的急剧增长,空间信息系统技术飞速发展,其应用领域在不断扩大。面对海量的空间数据及其复杂的数据特征,如何提高空间数据的查询效率成为
本文提出了一种移动计算的大数据服务应用,它是一种基于上下文情境处理网络平台用户文本数据的方法,应用数据挖掘技术和深度机器学习技术来进行想法/行为建模和数据分析。研究