大规模图增量迭代处理技术的研究与实现

来源 :东北大学 | 被引量 : 3次 | 上传用户:lovesyb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交网络、生物信息网络和信息技术的快速发展,使图论及其相关算法的应用日益广泛。其中,利用云计算环境开发大规模图的增量迭代处理平台,已经成为当前学术界和工业界研究的热点。但是针对数据划分、磁盘管理和网络通信等方面的优化工作,相对较少,而这三个方面正是影响大图处理平台运行效率的至关重要的因素。由于大图的增量迭代处理,具有数据耦合性强、迭代频率高、数据访问局部性差等特点,因此对于上述三个方面的优化处理是一个十分具有挑战性的课题,这也是本文的主要工作内容。在数据划分方面,本文首先分析了DFS生成图和BFS生成图的局部性,然后提出了连续划分策略。相比于现有的随机Hash划分,连续划分策略能够保留输入图的原始局部性,避免数据划分阶段的全局洗牌操作,均衡计算负载。同时,为提供迭代过程的消息路由寻址服务,本文提出了基于Hadoop的图顶点连续编码方案和基于DHT的Hybrid-MT连续编码方案,可以将图顶点字符串转换为数字连续编号。在磁盘管理方面,通过分析增量迭代过程,本文提出了图状态转换模型,并据此设计了基于列存储模型的静态Hash索引和基于Markov模型的动态可调Hash索引。前者可以提高消息数据与本地图数据之间连接操作的局部性,避免随机磁盘存取。后者在前者基础上,根据迭代状态的转换和Markov代价收益评估模型,可以动态调整Hash桶的分割粒度,最小化磁盘存取开销。在网络通信方面,通过扩展BSP模型(Bulk Synchronous Parallel),本文提出了基于EBSP模型的Hybrid迭代机制,即图数据同步处理,而消息数据跨步处理。特别的,消息跨步剪枝(ASMP)和跨步合并(ASMC)是两种跨步处理方法,可以分别剪枝消息规模和加速消息传播速度。此外,在连续划分基础上,本文提出了VCCP(Vertex-Cut based on the Continuous Partitioning)方法,利用BFS生成图的原始局部性,VCCP通过较低的预处理开销,能够显著改善总体运行效率。最后,本文设计了DiterGraph原型系统,通过大量实验验证了数据划分、磁盘管理和消息通信的性能。与现有系统对比,对于单源最短路径算法,DiterGraph的运行效率是Giraph的2倍,与Hadoop和Hama相比,最高可达21倍和43倍;对于PageRank算法,采用VCCP方法后,DiterGraph的运行效率最高可达Hadoop的20倍。
其他文献
印刷体数学公式识别(Optical Formula Recognition)是图像分析技术与传统的字符识别技术、公式的结构分析技术相结合的结果,它是近年来才兴起的研究热点,其与普通的OCR系统的
本文的研究内容是:期货交易数据交换协议中如何有效、有序、可靠地保证信息送达,提供故障的动态监测,目的是为了在远程交易中向会员和客户提供更好的服务,确保远程交易安全、稳定
随着客户和商业伙伴对实时信息的期望的不断增长,企业不得不连接他们的那些异构的系统并将企业应用放到Web环境中,以此来增加产出、提高效率以满足客户的需要。但企业内部应用
异构信息系统之间信息交流的障碍,导致“信息孤岛”大量存在。因此,探索异构信息系统之间信息交流的有效机制,具有重要意义。Internet和web技术,推进了信息交流,但仍有相当局
为了面对激烈的市场竞争,电信运营企业的运营模式都从以业务和技术驱动市场的模式逐步转向以客户的需求和市场的导向促进业务和技术的发展的模式,因此目前电信运营商推出的电
随着Web服务的广泛普及,可以预料Web服务的数量和种类将迅速增长。面对这样数量庞大的服务群,如何准确而有效地找到满足用户需求的服务即所谓的Web服务匹配成为一个亟需解决
本文对BGP4路由振荡问题进行了研究。文章给出了一种BGP策略冲突动态检测方法,该方法基于有向竞争图理论,通过构建竞争弧来发现路由策略冲突的AS及相关路由。用路由相对优先级
WCDMA标准分为R99、R4、R5和R6四个阶段。WCDMA网络分为接入网和核心网两大部分,接入网主要完成和用户连接部分。在R4,R99标准中核心网络分为两大域,CS域(Circuit Switched D
以太网在1973年诞生于施乐的帕洛阿尔托研究中心(PARC)的计算机科学实验室,由PARC的网络专家Metcalfe设计。1980年9月30日,DEC、Intel和施乐公布了第三稿的“以太网,一种局域网:
云存储具有高可扩展性、廉价、无接入限制以及易管理等优点,可以使众多中小型企业和用户摆脱存储系统的建造和维护,大大减轻用户的存储成本,具有广阔的市场应用前景。然而现