论文部分内容阅读
近几年来,大数据在全球迅猛发展,引起了学术界、业界和各国政府的高度关注。大数据的发展带来了重大的发展机遇与技术挑战。一方面,通过有效地管理大数据并分析提取其价值,能够为行业提供高附加值的应用和服务,实现巨大的经济和社会价值。另一方面,大数据在带来发展机遇的同时也带了巨大的技术挑战。传统的计算技术在处理大数据时将面临诸多的技术困难。因此,需要设计并开发面向大数据处理的机器学习、数据挖掘算法,并研究提升大数据处理性能的技术和方法,高效的完成大数据的分析处理和价值发现。
同时,当前国际上计算能力的发展异常迅速,超级计算机系统、异构并行处理系统、异构并行处理等技术蓬勃发展。如何高效的利用异构并行系统的异构计算资源进行大数据处理和分析也是亟需研究的问题。
本文拟深入研究大规模异构计算环境下大数据计算系统架构,提出面向大数据的基于异构并行计算资源的大数据内存计算系统框架模型,深入研究提升该平台易用性的编程框架,以及提升该平台处理性能的异构资源调度技术、高效的通信方法等。同时为了提升大数据平台的应用范围,深入研究了基于大数据系统的、特别是融合异构计算资源的并行机器学习算法,研究提升大规模机器算法性能的计术和方法。一方面,异构并行计算资源,特别是超算资源强大的计算能力的充分利用将大大提升大数据处理的性能。另一方面,此系统架构的提出将有利于推动超算资源在大数据处理方面的应用。
总体而言,本文的主要研究工作和贡献分为以下四个方面。
1.提出了一个可使用GPU加速的内存计算框架GFlink。
不断增长的主存容量和大数据的发展推动了内存大数据处理框架的发展管理和处理。但是,目前这些平台是基于CPU的系统。本文提出了GFlink,一个面向大数据的基于异构CPU/GPU集群的内存计算框架。我们提出的框架使原始的内存大数据处理平台Flink从CPU集群扩展到了异构CPU/GPU集群,大大提高了Flink的计算能力。此外,我们充分考虑了平台的可编程性和易用性,采用了一系列手段来提升系统的性能,如高效的JVM-GPU通信策略、三阶段流水线执行的策略、GPU缓存方案和自适应的位置感知调度方案。大量实验结果表明,GFlink能够有效利用GPU的高计算能力,并且基于GFlink的应用程序性能明显优于基于Flink平台的性能。
2.提出了一个面向大数据的异构并行内存计算系统FlinkCL。
为了进一步提升系统的可编程性和易用性,我们提出了一个面向大数据的异构并行内存计算系统FlinkCL。我们提出的架构使用四种技术:异构分布式抽象模型(HDST),即时(Just-in-time,JIT)编译技术,分层局部规约(HierarchicalPartialReduction,HPR)和异构任务管理策略。程序员只需要用简单的接口编写Java代码,Java代码即可自动编译为OpenCL内核并在CPU和GPU上执行。这些处理对程序员来说是透明的。我们通过一组有代表性基准测试程序全面评估了FlinkCL。我们的研究结果表明,FlinkCL在保持可编程性和易用性的同时,大大提升了大数据处理的性能。
3.提出了一个基于MapReduce模型的并行近似SS-ELM算法。
因其良好的泛化性能和学习速度,极限学习机(ExtremeLearningMachine,ELM)算法近年来被广泛应用,特别是用于处理大规模数据。半监督极限学习机(Semi-supervisedExtremeLearningMachine,SS-ELM)算法将ELM算法扩展到半监督学习领域。但是,原来的SS-ELM算法需要在处理数据之前将数据存储在内存中,如果数据量很大,单机的串行的SS-ELM无法进行有效的处理。为了解决这个问题,本文首先提出了一种基于MapReduce模型的高效并行SS-ELM(ParallelSS-ELM,PSS-ELM)算法,并采用了一系列优化手段以提升其其性能。然后,提出了一种并行近似SS-ELM(ParallelApproximateSS-ELM,PASS-ELM)算法。PASS-ELM基于近似的相邻相似性矩阵算法,利用局部敏感哈希(LocalitySensitiveHashing,LSH)算法来计算近似相邻相似矩阵,从而大大降低了算法的时间复杂性。实验结果证明了所提出的PASS-ELM算法可以有效地处理大规模的数据集,而且不会显著影响结果的准确性。
4.基于GFlink平台提出了一个并行层次化ELM算法。
层次化极限学习机(HierarchicalExtremeLearningMachineELM,H-ELM)算法把ELM从单层隐藏层前馈网络扩展到了多隐藏层前馈网络,大大增强了ELM算法的应用范围。通常为了训练层次较深的多隐藏层前馈网络,需要比较大的训练集。因此,如何利用H-ELM来在处理大数据方面值得进一步探索。我们提出了一种基于Flink和GPU的并行层次化极限学习机算法(GPH-ELM)。采用了几种优化方法来提升其性能,如基于缓存的方案、合理的数据划分策略等。实验结果证明了我们提出的GPH-ELM算法可以有效的处理大规模数据集,且具有良好的加速比和可扩展性,可充分利用集群中CPU和GPU的计算能力。
通过对上述面异构计算环境下大数据计算系统体系结构研究,以及异构计算环境下面向大规模数据集的并行机器学习算法方面的研究,本文取得了一系列研究工作成果。
同时,当前国际上计算能力的发展异常迅速,超级计算机系统、异构并行处理系统、异构并行处理等技术蓬勃发展。如何高效的利用异构并行系统的异构计算资源进行大数据处理和分析也是亟需研究的问题。
本文拟深入研究大规模异构计算环境下大数据计算系统架构,提出面向大数据的基于异构并行计算资源的大数据内存计算系统框架模型,深入研究提升该平台易用性的编程框架,以及提升该平台处理性能的异构资源调度技术、高效的通信方法等。同时为了提升大数据平台的应用范围,深入研究了基于大数据系统的、特别是融合异构计算资源的并行机器学习算法,研究提升大规模机器算法性能的计术和方法。一方面,异构并行计算资源,特别是超算资源强大的计算能力的充分利用将大大提升大数据处理的性能。另一方面,此系统架构的提出将有利于推动超算资源在大数据处理方面的应用。
总体而言,本文的主要研究工作和贡献分为以下四个方面。
1.提出了一个可使用GPU加速的内存计算框架GFlink。
不断增长的主存容量和大数据的发展推动了内存大数据处理框架的发展管理和处理。但是,目前这些平台是基于CPU的系统。本文提出了GFlink,一个面向大数据的基于异构CPU/GPU集群的内存计算框架。我们提出的框架使原始的内存大数据处理平台Flink从CPU集群扩展到了异构CPU/GPU集群,大大提高了Flink的计算能力。此外,我们充分考虑了平台的可编程性和易用性,采用了一系列手段来提升系统的性能,如高效的JVM-GPU通信策略、三阶段流水线执行的策略、GPU缓存方案和自适应的位置感知调度方案。大量实验结果表明,GFlink能够有效利用GPU的高计算能力,并且基于GFlink的应用程序性能明显优于基于Flink平台的性能。
2.提出了一个面向大数据的异构并行内存计算系统FlinkCL。
为了进一步提升系统的可编程性和易用性,我们提出了一个面向大数据的异构并行内存计算系统FlinkCL。我们提出的架构使用四种技术:异构分布式抽象模型(HDST),即时(Just-in-time,JIT)编译技术,分层局部规约(HierarchicalPartialReduction,HPR)和异构任务管理策略。程序员只需要用简单的接口编写Java代码,Java代码即可自动编译为OpenCL内核并在CPU和GPU上执行。这些处理对程序员来说是透明的。我们通过一组有代表性基准测试程序全面评估了FlinkCL。我们的研究结果表明,FlinkCL在保持可编程性和易用性的同时,大大提升了大数据处理的性能。
3.提出了一个基于MapReduce模型的并行近似SS-ELM算法。
因其良好的泛化性能和学习速度,极限学习机(ExtremeLearningMachine,ELM)算法近年来被广泛应用,特别是用于处理大规模数据。半监督极限学习机(Semi-supervisedExtremeLearningMachine,SS-ELM)算法将ELM算法扩展到半监督学习领域。但是,原来的SS-ELM算法需要在处理数据之前将数据存储在内存中,如果数据量很大,单机的串行的SS-ELM无法进行有效的处理。为了解决这个问题,本文首先提出了一种基于MapReduce模型的高效并行SS-ELM(ParallelSS-ELM,PSS-ELM)算法,并采用了一系列优化手段以提升其其性能。然后,提出了一种并行近似SS-ELM(ParallelApproximateSS-ELM,PASS-ELM)算法。PASS-ELM基于近似的相邻相似性矩阵算法,利用局部敏感哈希(LocalitySensitiveHashing,LSH)算法来计算近似相邻相似矩阵,从而大大降低了算法的时间复杂性。实验结果证明了所提出的PASS-ELM算法可以有效地处理大规模的数据集,而且不会显著影响结果的准确性。
4.基于GFlink平台提出了一个并行层次化ELM算法。
层次化极限学习机(HierarchicalExtremeLearningMachineELM,H-ELM)算法把ELM从单层隐藏层前馈网络扩展到了多隐藏层前馈网络,大大增强了ELM算法的应用范围。通常为了训练层次较深的多隐藏层前馈网络,需要比较大的训练集。因此,如何利用H-ELM来在处理大数据方面值得进一步探索。我们提出了一种基于Flink和GPU的并行层次化极限学习机算法(GPH-ELM)。采用了几种优化方法来提升其性能,如基于缓存的方案、合理的数据划分策略等。实验结果证明了我们提出的GPH-ELM算法可以有效的处理大规模数据集,且具有良好的加速比和可扩展性,可充分利用集群中CPU和GPU的计算能力。
通过对上述面异构计算环境下大数据计算系统体系结构研究,以及异构计算环境下面向大规模数据集的并行机器学习算法方面的研究,本文取得了一系列研究工作成果。