面向大规模图遍历的数据存储布局优化研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:lflhzq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在外存模式图处理系统处理大规模图数据时,由于图应用访问的随机性和图数据的低局部性,导致此类图处理系统在访问图数据时产生大量的外存储器随机I/O请求,从而严重影响文件缓存命中率,削弱I/O性能。因此,如何优化此类外存模式型图处理系统的I/O性能是提高图处理效率的关键。通过对外存模式图处理系统X-Stream、GraphChi和PrefEdge的I/O处理原理进行分析和对比,探讨了各方案的优势与局限性。在不改变图处理模型和用户操作复杂度的前提下,提出了基于图结构逻辑关联性进行图数据布局的I/O优化方案,设计以广度优先搜索访问序列作为图节点偏序关系进行图节点号映射布局,提高图遍历访问顺序性与局部性的方法BOGL。建立BOGL的BFS访问多叉树,给出图邻接矩阵,并统计分析布局前后的顺序I/O请求平均次数和图邻接矩阵非零元素的分布,论证了BOGL数据布局算法提高了图遍历的顺序性和局部性,从而可提高图处理的性能。开发了支持BOGL算法的图处理引擎原型系统BOGLE,主要包括预处理模块、加载模块、计算模块和预取模块,相比X-Stream和GraphChi图系统,使用BOGLE可以不改变其原有图编程模型,不增加用户操作复杂性,并且BOGLE可以和现有图处理系统结合使用;相比PrefEdge系统,尽管其已经专门面向图处理过程优化缓存,增加BOGLE数据布局优化后进一步提高了I/O效率。通过对不同来源、类型、尺寸的图数据集重新进行数据布局,对比测试布局前后的图处理应用性能,验证了BOGL数据布局策略I/O优化的有效性。将BOGLE用于SimPrefEdge和GraphChi图处理系统中,相比于原系统,对于高密率、平均度较高的“肥胖型”图数据集,采用BOGLE进行数据布局之后,其图遍历过程中I/O性能都有一定的提升,从而改善图处理效率。
其他文献
虚拟现实技术又称灵境技术,它是二十世纪末才兴起的一门崭新的综合性信息技术,它融合了数字图像处理、计算机图形学、多媒体技术、传感器技术等多个信息技术分支,从而大大推进了
分布式文件系统有效地解决了数据的存储和管理的难题,但却面临多用户并发访问数据的一致性问题,分布式锁机制为不同客户端正确访问服务器上的数据提供了保障。在多客户端同时
银行管理数据提取平台是根据银行工作的标准化、服务化、信息化、网络化、而建立的一种管理信息系统。银行的数据管理对象是金融行业大量的、随时更新的又需要高度保密的数据
有限单元法是一种有效的数值分析方法,是计算机辅助工程(CAE)的重要组成部分。随着工程问题复杂度的逐渐增加,CAD/CAE建模方法也在不断地发展。逆向工程是近几年发展起来的一种
混合云存储作为一种新型的数据存储模式,特别是随着大数据浪潮的到来,这一新型的数据存储模式已经逐渐被各行各业所接受、所使用。虽然这种存储模式看来潜力无限,但在实际使
目前,随着电子商务、物流行业的迅速发展以及国民消费水平的不断提高,网上购物规模逐年上升。相比传统购物方式,网上购物不仅具有方便、快捷、安全的优点,同时允许消费者对购买成
本文使用统一建模语言UML和统一过程RUP相结合的的面向对象软件工程方法学指导软件系统的设计与实现,将UML和RUP有机融合应用于项目--在线考试系统中。按RUP的核心工作流安排
聚类就是将数据对象分组成为多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。相异度是根据描述对象的属性值来计算的。距离是经常采用的度量方
随着互联网络的迅速发展,网络信息成为最大的信息来源,如何从海量的网络信息中准确查找自己所需要的信息是搜索引擎需要解决的主要问题。而随着信息多元化的增长,需要为不同
由于RDF(Resource Description Framework)数据模型的灵活性和可扩展性,越来越多的社区将它们的数据以RDF的格式进行发布。因此,分布式存储和处理RDF数据已经成为一个热点问