基于Pregel模型的大规模分布式子图枚举算法研究与实现

来源 :南京大学 | 被引量 : 0次 | 上传用户:xpzcz1995
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
给定一张查询图和一张数据图,在数据图中查找与查询图同构的所有子图的算法称之为子图枚举算法。子图枚举算法是图分析基础算法之一,在生物化学、生态学和社交网络分析等领域中有着广泛的应用。随着计算技术的发展,数据图的规模急剧增长,传统的单机子图枚举算法已无法在可接受的范围内完成大规模数据图的子图枚举任务。针对这种情况,研究者提出了一些基于通用大数据计算框架的分布式子图枚举算法。已有研究表明,在现有的分布式子图枚举算法中,会产生大量的中间结果,导致大部分的执行时间花费在中间结果的网络通信上,使得整体的子图枚举处理时间开销过长,而CPU的计算时间反而较少。现有的分布式子图枚举算法对数据传输量进行优化以尽可能减少中间结果数目的同时,进一步采用建立索引的方式减少重复计算。但是这些优化手段依然展开了所有的中间结果,导致中间结果的数量随着数据图的增大而急剧膨胀。因此,现有的分布式子图枚举算法存在着不能处理复杂查询、中间结果数量膨胀过快等问题。在详细分析了现有工作的不足之后,结合当前较流行的分布式图计算编程模型Pregel,从中间结果的压缩传输角度入手,设计了一种高效、低数据传输量的分布式子图枚举算法PTSearch。本文的主要研究工作和贡献有以下几点:(1)研究设计了一种通用的分布式子图枚举算法PTSearch。PTSearch算法将分布式子图枚举问题分为查询分解、部分匹配结果查询以及部分匹配结果展开三大步骤。(2)查询分解处理中,本文研究提出了一种基于动态权重调整和贪心策略的查询分解算法,降低了 PTSearch算法的迭代轮数。(3)基于Pregel模型完成部分中间结果的查询步骤,本文研究提出了部分匹配结果的压缩数据表示Gptr。Gptr是本文的核心数据结构。在网络通信过程中,Gptr代替了大量的部分匹配结果,减少了中间结果的传输量。(4)本文研究提出了减少迭代轮数、Gptr的批量压缩表示、通过自同构信息和顶点度数信息提前剪枝等三大细节层面的优化措施。这些优化措施进一步地减少了中间结果的传输量。(5)在上述关键技术方法研究与算法实现基础上,在四个真实图数据集上对PTSearch算法进行了实验和性能评估。从数据传输量来看,本文提出的PTSearch算法的平均数据传输量是目前主流算法PSgL算法的0.1%,是TwinTwigJoin算法的30%。从整体性能方面来看,在PSgL、TwinTwigJoin算法由于中间结果过多导致运行失败或者运行时间较长的情况下,PTSearch算法依然能够在较短的时间内完成子图枚举计算。综上所述,本文从中间结果的压缩传输这个新的思路减少了分布式子图枚举计算过程的网络通信量,并取得了较好的性能。在2016年第二届全国高校云计算应用创新大赛大数据技能赛全国总决赛中,本文设计实现的PTSearch算法取得最佳性能,荣获技能赛一等奖。
其他文献
XML查询技术一直是国际和国内很多研究所关注的热点,随着Web应用的快速增长,XML数据逐渐成为数据存储的一种新的标准,由于XML数据半结构化和有序性的特点,针对XML数据的复杂Twig
随着我国经济的高速增长和汽车工业的迅猛发展,汽车正在逐步进入普通百姓的家庭。作为汽车电子的车载导航产品也正逐渐显示出其广阔的应用前景和巨大的市场潜力,成为当今汽车工
随着计算机技术的发展,特别是Internet技术的发展,在许多行业、单位或机构部门内部都逐步实现了业务、信息的计算机管理。但是各个机构、单位或部门内部由于业务和功能归属不同
Internet已经成为目前世界上最大的信息资源库,但是网上信息资源纷繁芜杂,如何快速、准确获取满足用户感兴趣信息的要求,己经成为摆在人们面前的一大难题。作为这些信息服务的基
学位
PLC(Programmable Logic Controller)被广泛地应用于工业控制领域,随着问题规模的增大,控制复杂性的增加,传统的 PLC编程方法不适应控制规模的增大以及对控制严格性要求,而且
虚拟社群(也称在线社群)是一种以计算机网络为基础的社会性网络。在Web2.0的时代,虚拟社群作为用户参与和用户交互的基础,越来越显示出其重要地位。人们不仅仅想要从这些虚拟社群
在现行的数据库系统的性能测试领域内,很少有研究专门针对数据库管理系统中一些重要模块的性能,这些模块对于数据库管理系统的性能至关重要,尤其是并发控制模块实现机制的优劣对
在信息技术无比的渗透力的影响下,信息化无疑成为提高企业整体素质和核心竞争力的重要选择。要使信息技术能够真正地优化企业的业务运作,除了要有先进的设备和技术外,还必须要有
人工嗅觉系统的用途之一是准确识别气味物质的类别。常用的模式识别方法能够有效地解决气味分类问题,但实际应用中,人工嗅觉系统不仅仅需要快速气味的类别,更需要得到气味的准确
目前,办公工作流系统在企事业单位的管理、经营活动中发挥着越来越重要的作用,并且已经成为体现企业综合竞争能力不可或缺的组成部分。   本文结合国际工作流管理联盟(WfMC)
学位