不平衡集群上流式图计算引擎的设计与实现

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:fljk888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,大规模图数据处理的需求日益强烈,一些图计算模型被提出,例如Pregel[1]模型,GAS[2,3,26]模型。它们可以分为离线和流式两类。流式图计算引擎有PHISH[4,5],Flink[6,7],但在工业界使用比较少。工业界常用的图计算引擎是离线方式的,例如Pregel,GraphLab[8,9],GraphX[10]。因此,如何在GraphX上实现一个流式图计算引擎具有实际应用价值。上述图计算引擎,包括GraphX,都基于一个假设,即计算节点的性能是相同的,并且图是平均分割的。但是,在企业环境中,一个集群中的计算节点性能会存在不平衡的情况。这时平均分割的图计算时间会被计算最慢的节点所制约。因此,研究在不平衡集群上基于流式的图计算模型的图分割算法具有现实意义。针对上述问题,本文以实验室承担的实际项目为背景,分析了不平衡集群上图分割算法需要考虑的因素,提出了一种针对不平衡集群的流式图分割算法,并在GraphX的基础上实现了一个流式图计算引擎。之后,本文比较了在点分割模型下不同流式图分割算法和本文提出的算法的表现,使用不同数据集,在不同集群大小、不同集群不平衡程度的集群上进行测试,证明了本文所提出算法在集群不平衡程度增大时,能较好地控制运算时间的增长。与其他同类系统相比,本文工作具有以下特点:1)已有的流式图分割算法主要有哈希分割、平衡分割、分块分割[11,12]等,但它们都没有考虑集群不平衡性的问题。针对计算性能受最慢节点限制的问题,本文提出了一种基于不平衡集群的流式图分割算法PASGIC(Partitioning Algorithm for Streaming Graph on Imbalance Cluster)。该算法动态监测集群运算节点的CPU和内存变化等性能指标,根据这些指标,采用贪心策略来进行图的分割,让图计算引擎在计算每个迭代时,减少因为某些机器性能低下导致的整体计算时间延长。实验表明,相对于常用的随机和贪心图分割算法,PASGIC在不平衡集群上的处理速度要高出5%以上和16%以上。2)GraphX在工业界使用广泛,但不支持流式的图数据处理。本文对GraphX的运行模式和图分割方式进行了扩展,设计并实现了一个流式图计算引擎GraphA,并在该引擎上实现了PASGIC算法。该引擎具有自动探测集群不平衡性、根据不平衡性动态分割图、根据计算时间自动添加和释放计算节点资源等功能。实验表明,GraphA可以正确处理流式图数据,并对需要进行资源操作的预测召回率超过75%。3)在对流式图计算引擎的验证方面,目前缺乏对集群不平衡性度量指标。本文提出了一种度量集群不平衡性的指标体系。基于此指标体系,使用6个不平衡性不相同的集群和不同的数据集对GraphA引擎进行了验证。实验表明,GraphA能够根据集群的不平衡性对边进行合理的分割。
其他文献
随着图形处理技术与显示技术的快速发展,人类对视觉效果的要求越来越高,从而推动了显示设备实现三维立体效果,给用户带来真实生动的观赏体验。近年来,虚拟现实市场的出现使立体视觉的研究越来越得到重视。利用摄像机收集立体视频比较困难、成本偏高,而且传输占用带宽大,但对于三维场景重建技术,视频数据传输过程中只需要传送彩色图像与相应的深度图像,所占带宽较小。因此,三维场景重建是目前机器视觉研究领域中备受关注的研
科幻小说作为一种现代文学体裁,掀起了文学翻译领域研究者系统地对其研究的热潮。本翻译报告以非洲科幻小说《宾蒂:夜怪》第一章和第二章为翻译实践材料,通过对前景化理论的梳理,以英国语言学家利奇对前景化语言的分类为基础分析小说,力求在翻译中对源语言的前景化特征进行恰当的处理。该小说目前还没有正式出版的译文。作为宾蒂小说三部曲的第三部,小说讲述了主人公宾蒂从外星大学返回地球后面对家乡发生的巨变以及对在姆维尼
20世纪初期,在人道主义与科学主义思潮的争论中,青年马克思与老年马克思引发的争议下,以及主宰东欧社会主义国家的教条主义的马克思主义的理论背景下,东欧新马克思主义理论家们除了对马克思早期思想的解读外,他们也阐释了被教条主义的马克思主义反复曲解的《资本论》,以期完整地呈现出人道主义的马克思主义思想。通过对东欧新马克思主义内部各流派代表人物解读《资本论》的主要观点的分析,发掘出他们虽然存在视角的差异,但
视频行为识别具有重要学术价值和大的应用前景,使得它迅速成为计算机视觉领域的研究热点。因此,引起了研究人员和相关机构的极大兴趣。但是,行为识别仍然是一个非常具有挑战性的问题,因为一些现实数据都是从网页视频或者电影片段等中获取,包含了大量摄像机运动、复杂背景以及类内差异过大等问题。所以,提取有效的特征对于行为识别无疑是非常重要的。本文针对现有行为识别方法进行总结与分析,作出了以下几点贡献:首先,针对传
J·希利斯·米勒和兰詹·戈什是来自不同的大洲,拥有着不同的文化背景和批评视角的两位著名学者。在《文学思考的洲际对话》一书中,他们各抒己见,就文学的本质和文学重要性展
随着中国经济持续低迷,区域和地方非生产性资产逐渐暴露,特别是地方金融公司的无利可图且高风险的资产规模不断扩大,为化解区域金融风险,稳定金融秩序,2012年,地方AMC被中国财政部和中国银行业监督管理委员会批准成立。凭借其特殊的优势,地方AMC已经与四大国有AMC展开角逐,逐渐成为地方商业银行不良资产处置的重要渠道。本文首先简要梳理了金融资产管理有限公司及我国地方AMC的概念;说明了研究背景和研究意
目的:硬脊膜缺损在脊柱外科领域较为常见,常见处置方法为使用缝线及自体组织修补缺损部位,处理不当可引起诸多并发症,严重可致患者死亡。目前报道的硬脊膜缺损修复材料均存在不同程度的缺陷,限制了其临床应用。本项目拟探讨应用天然壳聚糖、藻酸钠、丙烯酰胺化学合成一种具有湿表面高粘性高强度的新材料,并检测生物强度、细胞相容性,同时建立硬脊膜缺损模型,在体外探讨应用该材料修复硬脊膜缺损的可能性。方法:研究内容及方
海上分布式作战概念由美国首先提出,并逐渐得到各国认可,我国在分布式协同作战方面同样进行了探索,但体系框架及技术基础尚未成熟。以提升我军我应对强敌的作战能力、指导海
随着新课程改革的不断推进,“立德树人”要求的不断深化,思想政治教育打破了以应试为主要目的和教学出发点的错误理念,更注重以生活实际为逻辑起点、坚持以人为本的价值取向、以指导学生生活实践为最终归宿。这与陶行知先生提出的“生活即教育、社会即学校、教学做合一”的生活教育理念不谋而合。因此在高中思想政治课堂上开展以学生为主体、以面向生活实践为导向、以实践活动为主要载体的生活教育对于提升学生的核心素养,促进学
语音识别在现今的日常生活中应用广泛,语音特征提取是语音识别技术中最关键的过程之一。语音特征提取在面临当前大规模、高计算密度的数据计算问题时,存在着高耗时、低效率的