基于启发式规则大图数据分布式划分的研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:lu_bo_123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,由于社交网络等发展,图数据规模变的越来越大。在如此大图上进行的计算超出了传统集中式计算系统的能力,因此应用程序部署已经从少量的HPC服务器或超级计算机转移到了云环境下的商业集群。为了支持复杂的图处理计算(如,Pagerank,最短路径等),需要将图数据进行分布式并行处理,以BSP模型为基础的图计算系统变应运而生。而图数据划分是基于BSP编程模型的大规模图处理系统需要解决的重要问题之一。特别在云环境下,由于数据规模过大,更需要将图数据划分为多个分区,交由集群中的计算节点并行处理。对于某个特定的社交网络数据,用户数据往往呈阶段性递增的方式产生,而图计算系统在每次计算都进行一次在线的图划分并不是一种高效的方式,因为在每次计算的过程中,计算系统都要重新的加载图数据并进行数据划分和分发,消耗了不必要的时间,并且在线的图划分难以达到很好的划分效果,即保证分区的负载均衡和分区间的交互边数尽可能少。为此,在项目组基于BSP模型开发了可进行大图计算的图处理系统BC-BSP的基础上,本文主要基于LDG启发式规则设计和实现了适用于基于BSP模型系统的离线图划分算法。本文的主要贡献如下:(1)本文引入了顶点收益模型,将LDG启发式规则应用在数据划分上,保证了各个分区的负载均衡性,减少了分区间的交互边,保留了图的局部拓扑性。(2)分析并发现了 LDG启发式规则在顶点随机输入时性能波动较大的缺陷,提出了基于影响力的两阶段划分流程,即先划分影响力较大的顶点,然后再划分影响力较小的顶点,这样可以在划分过程中维护图的拓扑结构。(3)应用LDG启发式规则进行图划分需要维护一个全局的顶点映射信息,因此难以在大图上进行扩展,本文为了提高LDG处理顶点的量级,设计了两种方案,一种是基于分布式内存的分布式LDG划分算法,将全局的顶点信息分布映射到不同的计算节点上,来解决集中式映射表内存占用的瓶颈。另一种是先将原图进行浓缩,然后对浓缩图进行处理。因此,本文提出了以基于高介数边删除的子图浓缩算法,该算法能够使得浓缩图极大地维护图的拓扑结构。基于浓缩图,本文提供了两种划分策略,一种是基于顶点迁移的划分算法,另一种是利用基于分布式内存的策略划分浓缩图。对于基于分布式内存策略划分浓缩图的方案,能够极大的扩展图顶点划分的量级。本文将提出的数据划分算法和一次划分多次使用的思想应用于BC-BSP系统,通过实验证明,其完成了 BC-BSP系统中图划分模块的功能,具有良好的可扩展性和稳定性。
其他文献
全球铜精矿产量增长3.4%2012年全球铜精矿产量达1670万吨(铜金属量),同比增长3.4%。摆脱了罢工、意外天气等因素的影响,全球大型矿业公司的生产逐渐平稳。智利、中国及秘鲁三大
目前,我国大部分灌溉渠道及渠道建筑物由于发展原因经过了多次的改建和扩建,改变了渠系原有的布局结构,使得灌排管理部门无法准确定位渠道或渠道建筑物的位置,对灌排工程管理和用
稻田机械化收获后,下茬作物播种前实施稻茬切割是一个新构想。本文以采用曲柄连杆——摇杆滑块空间传动机构的往复式稻茬切割器为研究对象,分析其传动机构运动动力学特性,在
教师信念是教育研究中的一个重要议题,在教师信念的研究中最困难的是选择恰当的研究方法。教师信念中隐蔽行动信念的存在,使研究者在探求与解释教师信念时必须要同时关注教师
在数控铣削加工中,工装夹具可以使加工更加精准、高效。随着经济和技术的发展,数控铣床在零件的加工制造中对工装夹具的要求越来越高。从数控铣床工装夹具的设计流程、设计要
<正> 我们在临床中,用草药芸香草1味熏洗治疗滴虫性阴道炎共41例,效果满意。现简单介绍如下: 取单味芸香草(鲜)250克,用1500毫升清水,煎后放盆内,先用其蒸气熏洗外阴,待水温
侯禹高速河津服务区采用地源热泵取代传统的分体式空调和燃煤锅炉为服务区夏季供冷、冬季供暖,通过对改造前后的能源消耗、污染物排放、运行费用等指标的对比分析,地源热泵系
目的:探讨精神分裂症患者非理性信念和应付方式的特点及其相关性。方法:采用非理性信念量表(IBS)和应付方式问卷,测评200例精神分裂症患者和102名正常对照。结果:①与正常对照相比,
目的探讨中医特色疗法及康复训练在颈椎病中的临床应用效果。方法选取2013年1月~2014年1月本院收治的146例颈椎病患者作为研究对象,随机分为实验组与对照组,各73例。对照组采
随着文明的不断发展,传统文化的传播开始受到人们的重视,近几年,传统文化的电视传播也开始变得越来越火热,《中国成语大全》就是其中的佼佼者。本文主要以《中国成语大全》为