大数据背景下的图数据并行处理关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:nitendo1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着各类信息化设备的普及,设备所产生的数据总规模呈指数级增长。大数据技术为海量数据提供了存储、处理、应用以及可视化等各类功能,赋予用户从各种类型数据中挖掘有价值信息的能力。在大数据处理领域,为了刻画各类数据之间的紧密关联特性,图作为一种常用的抽象数据结构,广泛地应用于数据与数据之间关联关系的分析。在数据挖掘和机器学习的研究领域,以图作为核心数据结构,对算法的实现具有至关重要的作用。利用从图数据中所挖掘的信息,用户能够分析出关联结点信息之间的各类关系,例如广告推荐应用中人与产品、产品与事件、人与兴趣点等的关联性分析。随着从新兴应用场景中抽象出的图数据规模日益扩大,各领域对亿万个顶点规模图数据的处理能力要求越来越高,例如社交网络与万维网络分析、路网时空网络结构检测、语义网络和知识图谱构建、生物信息网络挖掘等。为了应对大规模图数据处理的性能挑战,以并行处理技术为核心构建图数据的并行计算系统和优化算法,已成为当今国内外学术界和工业界的研究热点之一。  在大数据背景下,本文针对大规模图数据的高效处理,从系统层、算法模型层以及应用实例层开展图数据并行处理关键技术研究。本文分别研究了多核处理器下外存图数据处理系统的优化技术、Multi-GPU服务器上图数据处理系统设计、复杂网络Core分解并行优化技术,以及疾病传播网络社区检测的并行优化方法。本文的主要研究内容和贡献如下:  第一、提出了基于子图依赖关联的外存图数据并行处理的系统优化。研究分析了多核并行环境下外存图处理系统的性能瓶颈,给出了一种基于子图间依赖关联关系的图并行处理系统的I/O优化方法,并实现了原型系统Frog。在图数据预处理阶段,Frog提出了混合子图块切分策略,并构建了轻量粗粒度的子图分块依赖关联规则。基于所设计的子图依赖关联关系,Frog在磁盘顺序化读写和数据预取上,优化了图数据的读写更新操作。通过对原型系统Frog的实验验证,研究所提出的子图依赖策略和实现的Frog系统不仅能够有效地提升外存图数据并行处理系统的数据吞吐效率,降低不必要的数据读写开销,而且提升了多核处理器下的系统可扩展性。  第二、提出并设计了Multi-GPU服务器环境下的大规模图数据处理系统。研究分析了现有图数据并行处理系统扩展到Multi-GPU平台后的性能瓶颈和可扩展性问题,提出并设计了Multi-GPU平台下高效、可扩展的大规模图数据处理系统GFlow。GFlow提出了适用于Multi-GPU平台的图数据Grid切分策略和双层滑动窗口算法,在将图的属性数据(点的状态集合,点/边权重值)缓存于各GPU设备之后,顺序加载图的拓扑结构数据(点/边集合)至各GPU中。通过双层滑动窗口,GFlow动态地将SSD存储的数据分块加载至GPU设备内存,并顺序化同步聚合各GPU所生成的中间结果集。在真实图数据集上进行的一系列基准实验表明GFlow在Multi-GPU平台上有显著的性能提升和可扩展性增强。  第三、提出了GPU下大规模网络图数据的Core分解并行化技术。研究首次提出并实现了GPU服务器下复杂网络Core分解的两种并行策略。第一种RLCore策略基于图遍历思想,利用GPU多线程对网络图结构自底向上遍历,逐步迭代设置各节点所属的core层;第二种ESCore策略基于局部收敛思想实现,各GPU线程对网络中的各节点独立处理,每个节点获取其所有邻居节点的当前core值并汇聚更新,直至无节点更新。评估显示,GPU服务器下ESCore和RLCore显著提升了Core分解的并行处理效率,且ESCore相比RLCore能够大大降低遍历过程中GPU线程更新同一节点的同步操作开销。  第四、提出了基于Jaccard距离的疾病传播网络的社区检测并行处理。研究提出并实现了一种适用于疾病网络的社区检测模型和并行化优化方法。疾病传播网络中疾病在个体间以动态接触方式进行传播,传统社区检测无法可靠地检测其社区分布,研究提出了基于Jaccard距离的动态社区检测方法。另外,为了进一步提升大规模疾病传播网络上算法性能,我们设计并实现了基于GPU并行计算环境下的EpCom方法,支持在有限GPU访存资源下的大规模疾病传播网络社区检测。评估显示基于Jaccard距离的动态社区检测模型能够很好的适用于疾病传播网络的社区检测,且EpCom方法显著地提升了社区检测算法的并行化性能。
其他文献
本文主要讨论了数据挖掘的一些基本概念、模式、算法及其在税务系统中的应用,并围绕数据挖掘讨论了解决目前在税务系统中存在的问题的一个解决方案。 首先,本文说明了什么是
多元变参数振动钻削是一种为适应新型材料的出现而进行的优化切削过程,在切削过程中为提高孔加工质量而提出的最优化加工方法。该方法在钻削过程的不同区段,要求采用该区段的最
本文所研究的数字签名就是一种常用的信息安全技术,而其中的多重数字签名正受到人们越来越多的关注.可是,已有的椭圆曲线多重数字签名方案只适合进行广播多重签名,不适合进行
本文针对支持向量机目前存在的若干关键问题展开深入的研究,涉及支持向量机的训练、分类、模型选择和多分类器构造等方面,并将研究成果应用于人脸识别问题中。取得的创新性成果
本论文的目的是利用GIS技术和相关的无线电波传播预测模型来研究无线电波的传播现象。预测的结果以直观的方式输出,这将有助于专业人员建立和优化移动通信系统。  本论文对
数据中心运行着多种类型的应用,例如社交网络、大数据分析、企业应用。这些应用对存储系统的要求(持久性、一致性和性能等)各有不同。随着存储技术的发展,存储层次结构的深度不断
数据挖掘,又称数据库中的知识发现,作为一门新兴的研究领域,主要目的是从数据集合中发现隐含的、事先未知的、对决策有潜在价值的用户感兴趣的知识,数据挖掘是当前数据库领域中最
分布式系统由于具备高吞吐信息服务和海量数据处理能力,在科学计算和金融等领域需求迅猛增长。但随着机器的更新换代及为了满足应用的不同计算需求,分布式集群面临两大挑战,即下
随着互联网的飞速发展,网络中的Web应用也呈现出急剧增长趋势。随着Web应用资源需求的不断增加,各类增值服务迫切要求为其提供基于利润收益的有竞争力的区分服务,而不应该再
随着信息技术和管理理论的发展以及计算机和网络的广泛应用,工作流技术正在成为计算机应用领域的一个新的研究热点。工作流技术起源于办公自动化,后来广泛的应用于图像处理、文