动态图分析计算框架关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:yueer40849263
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图作为一种通用的数据结构,近年来被广泛应用于各个领域的数据建模问题来表达关联数据,如社交网络、知识图谱与机器学习等。另一方面,随着互联网用户的不断增加,信息系统中需要处理的图的规模也在不断增大。这些大规模图结构的处理超过了单机的处理能力,因此必须借助分布式系统完成图分析算法的执行。  为了减化图分析算法实现的难度,避免重复解决图加载、内存组织与容错等通用的问题,一系列分布式图计算框架被设计了出来。这些图计算框架为用户提供了编程接口与运行时,用户仅需实现框架编程接口中要求的少量逻辑,即可交由运行时完成图分析算法的执行。分布式图计算框架极大的简化了算法编写的难度,但是,现有的图处理框架主要针对不变的静态图的场景,对随时间变化的动态图的处理则无能为力。而在社交网络分析、WWW链接分析等领域,动态图是常用的数据模型。因此,需要设计专门的分布式动态图计算框架来支持动态图的分析。  为实现这一目标,本文将动态图分析总结为动态图的离线分析与在线分析两类,并将其转化为多版本静态图分析的问题,然后基于现有单版本静态图分析框架进行实现。这种方案允许用户复用静态图分析的代码来实现动态图分析。然而,现有的图分析框架存在着一系列的问题,这些问题不仅导致其在执行静态图分析算法时算法执行开销过高,也导致基于这些框架所实现的动态图分析框架性能受限。首先,动态图计算依赖底层存储系统可以提供图更新事务分布式强一致性的支持,从而将动态图转化为确定的多版本图。但是,现有的图存储系统未能提供这种支持,且存在复杂索引导致图更新吞吐率降低的问题。其次,现有图处理框架常用的内存组织与一致性算法存在着通信复杂度过高、存在细粒度阻塞等问题,从而导致了图算法执行时间开销较大。第三,现有的图计算框架未考虑顶点更新调度的问题,在用于动态图分析时存在着重复更新与更新延迟的问题,从而增加了计算与通信的开销。  针对现有静态图处理框架存在的问题与支持动态图处理的需求,本文设计与实现了一套新的动态图分析框架IncGraph。IncGraph首先对单版本图分析中的关键问题设计了新的优化方案,然后基于这些优化方案分别实现了动态图离线与在线分析的计算框架,从而满足了动态图分析的需求。本文主要贡献如下:  1.设计了一种面向计算的分布式多版本动态图存储引擎。该引擎通过支持强一致性顶点处理事务来维护图的版本结构,并通过日志操作重排序与针对计算层需求进行裁剪提高了图更新事务处理与数据加载的效率。  2.设计与实现了一种新的动态图顶点内存组织方式,即基于副本的推模型,并基于该模型设计了一种基于多版本副本的更新一致性算法。该内存组织方式与相应的一致性算法通过只读结果副本减少了图算法执行时的通信开销,并通过多版本副本减少了顶点更新的细粒度阻塞,从而减少了总执行开销,提高了图计算框架的性能。  3.基于上述实现层优化,设计和实现了一种基于顶点更新优先级调度的多版本动态图离线与在线计算引擎。顶点更新优先级调度通过维护顶点的更新状态,为顶点更新选择合适的时机。相对于传统的单独采用多版本联合计算或增量计算的动态图分析框架,IncGraph中的动态图离线与计算引擎可以避免前者重复计算与后者更新延迟的问题,从而减少动态图离线分析的时间开销。  4.基于以上贡献,设计与实现一套完整的动态图处理框架IncGraph,为上层用户提供了完整的动态图管理与分析的功能。  通过理论分析与实现可以证明,IncGraph可以较大得减少现有静态图计算框架的开销,并且相对于现有的动态图分析技术,IncGraph可以提供更完整的动态图分析的支持,并同时提高动态图分析的性能。
其他文献
随着现代信息技术的发展,立体显示作为一种重要的信息技术也得到快速发展和广泛应用,受到了人们的关注。立体显示技术相对于传统显示技术给用户提供更加真实的临场感和沉浸感,带
该文提出了一种计算插值节点的新方法,该方法具有二次曲线的插值精度.文中所介绍的计算插值节点的方法,在平面五点可唯一地确定一条二次曲线为基础,首先利用二次曲线的理论计
随着IT技术的不断发展,基于容器的云资源共享泛型已成为大数据和人工智能基础设施的主要构造模式,其服务对象由7*24小时的服务类应用开始向服务类和批处理类应用混合场景转变,单
随着网络技术的逐步成熟和完善,Internet应用的复杂性不断增加,对原有构建方案提出了新的要求.如何适应这种要求,找到一种构建Internet应用的最佳方案也就成为一个新的研究课
随着Internet应用的广泛深入,计算机系统的安全问题日益引起人们的高度重视.操作系统是连接计算机硬件与上层软件及用户的桥梁,它的安全性是至关重要的.中国的政府、国防、金
模式识别是研究利用计算机来模仿或实现人类或其它动物的识别能力,以便研究对象来完成自动识别的任务。模式识别任务的输入模式可由任意阶张量表示,但其在作为传统分类器输入时
情感交互的目的是通过赋予计算机识别、理解、认知人的情感的能力,从而使计算机具有更高的类人智能,提供更加自然的人机交互体验。随着计算机设备、网络摄像头等设备的普及,基于
该文参照有关密码体制和算法安全的基本理论,结合对水印的研究,开创性地得出了水印安全的基本内涵,并依此确立了该文的基本研究目标:对鲁棒水印,它们在体制上应该尽量不分发
为了实现企业的高效运营,在电子技术飞快发展的今天,利用信息技术,应用先进的计算机管理信息系统成为企业在激烈的竞争中发展和成功的必要条件.计算机网络技术的飞速发展,为
Client/Server结构是近几年非常流行的一种分布式计算模式,它的优势在于广泛地采用了网络技术,将系统中的各部分任务分配给网络中担任不同角色的计算机。然而在分布式环境下,类似