【摘 要】
:
频繁子图挖掘是图数据挖掘一个重要的研究方向,为的是找到图数据集合里频繁存在的子图集模式,从而找到图数据集合所包含的规律。随着数据正在迅速膨胀并变大,由于传统的频繁
论文部分内容阅读
频繁子图挖掘是图数据挖掘一个重要的研究方向,为的是找到图数据集合里频繁存在的子图集模式,从而找到图数据集合所包含的规律。随着数据正在迅速膨胀并变大,由于传统的频繁子图挖掘算法在时间需求上大都呈现指数级别的增长,在时间需求上无法满足对大规模图数据的挖掘。因此,针对大规模图数据频繁子图的挖掘设计出基于MapReduce的大规模图数据集频繁子图挖掘系统。基于MapReduce的大规模图数据集频繁子图挖掘系统为了满足用户在时间需求上的要求,利用MapReduce框架和并行计算,将图数据集分为几个小部分,并行执行挖掘算法,从而实现挖掘大规模图数据的目标,在一定程度上提高挖掘效率。其次,考虑到分布式情况下会产生一些问题:第一,复制图的问题;第二,本地频繁与全局频繁的问题,提出相应的解决办法。首先根据复制图产生的原理,利用嵌入技术,通过保存本地已经生成的候选子图集,并将新生成的候选子图与之比较,从而解决复制图问题。通过添加一轮MapReduce,每次迭代都得到该轮的全局频繁子图集并将其作为下次迭代的输入,从而解决了本地频繁与全局频繁的问题。最后,在Hadoop平台搭建集群上,用了6个数据集,采用3种不同的支持度并且分别在2个节点以及4个节点的情况下对基于MapReduce的频繁子图挖掘系统进行了测试。实验结果表明测试结果表明,相比于传统频繁子图挖掘方法,在相同的硬件条件下,能够支持更大规模图数据集的频繁子图挖掘。同时,在时间需求方面要明显优于指数级递增的传统频繁子图挖掘方法,具有更高的挖掘效率。
其他文献
从获取的二维图像出发,进行物体的三维重建是计算机视觉领域的一个重要课题,在虚拟现实、三维测量、机器人自动导航、工业检测等方面具有广泛的应用前景。重建过程涉及图像预
在当今的基因组时代,我们面临的主要挑战之一则是基因之间功能关系的挖掘,高通量的微阵列技术的出现填补了这一缺陷。DNA微阵列提供了大量的基因表达数据,这为基因功能和基因
近年来无线传感器网络技术不断成熟,各种新型应用在不同领域中得到越来越广泛地得到使用。传统的依靠电池供电的无线传感器网络因为后期维护的难度巨大极大地限制了网络的性
多Agent协作问题是RoboCup2D中研究的热点问题。RoboCup仿真2D中,协作问题解决的好坏直接关乎比赛效果。针对仿真2D中的实际问题,本文首先介绍了多Agent协作研究背景及研究现
离散事件系统(Discrete Event System, DES)是由离散事件驱动,并由离散事件按照一定的运行规则相互作用,导致状态演化的一类动态系统。DES的本质是一类人造系统,如:柔性制造系
随着无线电技术的进步,无线电应用已经普及社会各部门各领域,各行业对无线电频谱资源的需求日益剧增。无线电频谱资源作为一种稀缺的、不可再生亦不可耗竭的公共资源,如可有
在传统业务系统中,企业组织的业务规则通过硬编码实现并嵌入在业务系统的各个角落,导致业务系统的调整不能及时响应市场环境的变化。业务规则管理系统把业务规则交给终端业务
程序理解在软件开发和维护过程中占据重要地位,贯穿软件开发生命周期的始终。程序可读性分析和概要化技术是程序理解的重要组成部分,可以帮助软件开发人员快速准确的理解大型
容错设计技术是提高计算系统可信性的重要措施。高能粒子辐射引起的软错误曾被认为是影响宇航电子用品可靠性的首要因素。随着集成电路特征尺寸的急剧减小进入纳米级,关键电
云计算是一种新兴的资源使用和交付模式,它以一种有趣的形式呈现并且推动科学的发展和商业应用。类似于水电,云计算通过按需消费向用户提供一种即时、灵活和可扩展的服务。云