异步大规模图处理框架Maiter的负载均衡技术及累积迭代算法的研究

来源 :东北大学 | 被引量 : 2次 | 上传用户:yyp0000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子商务、社交网络的发展,大规模分布式图处理的作用越来越重要,被广泛的应用在链接分析、产品推荐等应用中。Maiter框架作为完全异步的大规模分布式图处理框架,采用DAIC计算模型,避免了同步开销,提升了收敛速度,极大的提高了大规模图处理的效率。为了进一步的提高Maiter框架可用性和通用性,本文的工作在两个方面展开。在Maiter框架可用性方面,本文采用集中式动态负载均衡机制解决了 Maiter框架的负载均衡问题。在负载均衡机制实现的过程,解决了诸多难题。1)提出了基于Hash数据块的数据管理方式和消息分桶标记定位机制,极大的方便了负载均衡处理过程中的数据迁移和迁移数据重定位。2)从理论上证明了 Maiter框架在算法计算的过程中进行数据迁移,对整个集群的影响并不会改变最终的计算结果,从理论上保证了计算过程中数据迁移的正确性。3)提出了基于缓存的错位消息中转机制,来处理数据迁移的过程中产生的错位消息。并从理论上证明了该机制的正确性。4)在以上工作的基础之上,在Maite框架上实现了基于数据块的集中式动态负载均衡机制。实验结果显示,该机制在集群不存在负载倾斜时,几乎不会增加系统的开销。存在负载倾斜时,可有效的处理负载问题,并提升框架整体的计算效率。在Maiter框架的通用性方面,本文采用了 DAIC计算模型的思想,改进了传统的SimRank算法,1)本文提出Asyn-SimRank算法,该算法采用迭代-累积的方式完成迭代计算,异步执行SimRank的核心迭代过程,避免了大规模分布式计算中的大量同步开销,同时有效降低计算量并减少通信开销;2)提出关键点优先调度计算,提升了Asyn-SimRank算法的全局收敛速度。3)证明了 Asyn-SimRank算法的正确性和收敛性以及关键点优先调度计算的有效性。4)在支持异步迭代的分布式框架Maiter上实现了Asyn-SimRank算法。实验结果显示,相比较于Hadoop,Spark上实现的SimRank算法和Delta-SimRank算法,Asyn-SimRank算法大大提升了算法的计算效率,加速了算法收敛。经过本文的一系列工作,Maiter框架的通用性和可用性进一步提升,为Maiter框架的实际应用创造了有利的条件。
其他文献
加强思想政治教育,是我军的优良传统,是推进部队全面建设、完成各项任务的中心环节。而正确认识和分析军队思想政治工作的教育对象,是思想政治教育的起点和基础。新时期随着改革
假释制度于20世纪初引入我国,而在司法实践中广泛应用,则在新中国1997年新刑法颁布以后。纵观近二十余年,我国获得假释的罪犯人数占在押罪犯总数始终在2%左右,如此低的假释率使得
2010年11月3日奇虎360正式向腾讯集团的宣战,以及2004年哈尔滨啤酒集团对圣士丹公司的诉讼,让我国民众的视线聚焦在了反不当竞争中消费者权益保护这一领域。中国现行《反不正当
目的探讨无缝隙护理管理理念在肾脏科重症监护室连续性血液净化患者中的实践与效果。方法建立病区间无缝隙护理管理团队,规范治疗流程,细化护理交接内容,建立三级护理质量监
近年来,伴随着新疆对外贸易的快速发展,建行新疆分行外汇业务取得长足发展,经营业绩、利润创造、同业排名均取得较好成绩,已成为该行的的战略性业务。贸易融资作为外汇业务的发展
近几年、中美知识产权争端频发,美国以中国政府、出口企业对知识产权保护不利为由,多次利用美国国内法干预中国知识产权产品的出口。主要为“特别301条款”及“337条款”,要求中
三声通协即平上去三声通押(含入派三声)是北曲的基本特征,也是词曲分别的关键。现存元散曲曲牌绝大部分用韵是三声通协,仅有的非三声通协数调多本为词调。而现存宋词中三声通
幽默是一种高雅的语言艺术,对其进行语用分析,有利于更好地领会和体验幽默。英语 幽默中的歧义现象涉及音系、语法、词汇三个层次。打破常规的指示词的使用在英语幽 默中的作