分布式环境下大规模单图的频繁子图挖掘

来源 :宁波大学 | 被引量 : 0次 | 上传用户:jsnjwh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的快速发展,各类数据的存储量与日俱增,对于这些海量数据的挖掘需求越来越强烈,因此大规模单图下的频繁子图挖掘也随之成为研究热点。频繁子图的目标是从图集或者单图中找出支持度大于某个阈值的所有子图,结果可运用于分类、聚类和索引的建立,并且单图下的频繁子图挖掘对于社交网络和万维网的研究意义尤为显著。在已有研究工作中,基于单机的频繁子图挖掘算法对于阈值较低的支持度挖掘难以支撑,也不适合较大规模图的挖掘;现有分布式下的单图挖掘算法仅支持指定顶点数量 k的挖掘,多数基于Hadoop实现,对于迭代类算法的实现产生额外开销。本文在对现有的频繁子图工作和分布式框架进行充分研究的基础上,借助 Spark平台,提出了大规模单图下的分布式频繁子图挖掘算法-FSMBUS和基于频繁边的图采样算法-DFES。  FSMBUS算法以频繁边为起点,利用次优树生成候选子图,对候选子图进行搜索数据域构建之后并行计算其支持度,在支持度计算阶段使用非频繁检测和搜索顺序进行优化,还设计了一种基于贪心的数据划分策略实现负载均衡。FSMBUS借助次优树可进行子图模式增长的挖掘,所使用的优化方式以及负载均衡策略可以有效提升算法运行速度,基于 Spark进行分布式运行,也避免了迭代时数据交换的开销。最后实验表示 FSMBUS算法的效率比最新的单机算法快一个数量级,同时还比该算法的Hadoop移植版本快2~4倍。  频繁子图挖掘是一个 NP难题,随着图数据的规模日益扩大,其运行开销也随之成倍增加。由于大规模图数据的频繁子图挖掘不需要完全精确,因此很多学者开始研究采样的方法以显著提升运行效率,虽然会损失一定的精度。为了提升采样图频繁子图挖掘的精度,本文提出了 DFES图采样算法,采样时根据边的频繁度进行顶点的状态转移,考虑了采样后的标签边分布,使用图感应算法对其优化,最后使用 Spark对其进行分布式实现。实验表明,相比于传统的采样算法,经过DFES算法得到的采样图更适合频繁子图挖掘。
其他文献
Internet的飞速发展,一方面使得用户对网络流媒体提出了更多的服务需求,另一方面也为互联网提供了大量的闲置资源。如何有效利用数量和能力不断增长的闲散资源为用户提供保证质
经济的快速发展带来了环境问题,其中大气污染是其中比较严峻的问题之一。通过大气污染预报模型对空气中的颗粒物浓度进行预报,一方面分析出污染物趋势以及各种因素对空气质量的
随着软件技术的快速发展和软件应用范围的不断扩大,软件系统规模越来越大,软件功能日趋复杂,软件的需求获取变得更加困难,这表明需求分析在整个软件开发过程中具有十分重要的
随着视频点播服务的流行,对VOD系统的大规模分发需求也越来越高。传统的CDN架构VOD系统的部署和维护费用相对较高,而且它的单一服务器的负载有限,系统的扩展性难以满足发展的
近年来,随着信息技术的快速发展与网络的广泛普及化,数据形式变得更加多样化,传统的静态挖掘技术无法适应快速流动的动态数据的挖掘,数据挖掘的研究向着更深入的方向发展。其
随着基于位置服务相关技术的成熟以及普及,定位应用已为人们的日常生活提供了极大的便利,市场对于定位需求和精准度要求与日俱增。在室外定位方面,卫星定位技术完善且广泛运用,如
对于通信系统的建模存在很多种方法,其中以面向对象方法建模和Petri网建模为主要建模方法。面向对象建模广泛采用UML建模,作为一种半结构半形式化的建模语言,不能提供严谨的
随着Internet规模的日益扩大,各种网络业务不断涌现,网络应用的数据流迅猛增长,网络设备原本单一的“尽力”服务方式已不能满足要求。这一切对各种网络设备提出了新的要求,需
人体识别问题(person re-identification)就是在非重叠的多摄像系统中判断一个摄像头下出现的行人是否与另一个摄像头下出现的行人为同一行人,其在目标提取以及跟踪等领域发挥着
随着互联网技术的日益发展和普及,中文问答社区如知乎、百度知道等正逐渐成为一种广受用户喜爱的信息分享与获取平台。用户可以在其中以提问或者是查询相似问题的形式从其他用