论文部分内容阅读
大数据是随着信息科技的高速发展而产生的独特数据现象,其影响已经深入到人们生活的方方面面。为了获取大数据中蕴含的宝贵价值,需要采用合适的处理方式对海量数据进行处理。其中,MapReduce应用和神经网络应用是目前利用海量数据进行价值发现的代表性手段。对于MapReduce应用,Hadoop是目前最成熟的大数据处理框架,其为MapReduce应用提供了运行环境,并提供了丰富的配置参数对应用的运行进行控制。然而,在缺乏专业知识的情况下,用户难以对这些配置参数进行调优。同时,对于MapReduce应用和神经网络应用,传统体系架构中处理单元与存储单元之间频繁的数据移动限制了系统的性能和能效表现。为有效提升基于MapReduce和神经网络的大数据应用的处理性能,本文从软件框架、系统架构,以及专用加速结构等角度出发,研究大数据应用性能优化的关键核心技术。本文的主要工作和研究成果包括:1)基于性能建模的Hadoop配置参数调优方法。Hadoop中,默认配置下MapReduce应用的性能往往无法达到最优。同时,巨大的配置参数空间也使暴力搜索难有成效。为此,本文首先基于对MapReduce运行流程的分析,采用集成学习的方法构建双层模型对应用程序的性能与Hadoop配置参数之间的关系进行建模。然后,基于性能模型采用元启发式方法对配置参数优化空间进行探索,以寻找最优的配置参数组合。实验结果表明,本文的性能模型可以准确地预测MapReduce应用的运行时间,平均错误率为5.7%;相比于Hadoop默认配置以及现有研究,优化后的配置参数可以使MapReduce应用分别获得平均9.6倍和1.5倍的性能提升。2)基于动态任务迁移的近数据处理方法。为了应对大数据应用中频繁数据移动对系统性能和能耗造成的负面影响,本文基于三维(3D)存储器集成存储与逻辑电路的特点和MapReduce模型的并发特性,提出一种基于动态任务迁移的近数据处理方法。本文对MapReduce应用的工作流解耦以获取核心计算任务,提供迁移机制将计算任务动态迁移到近数据处理单元中运行。实验结果表明,对于MapReduce应用,提出的近数据处理方法将75%的数据移动约束在存储单元内部,有效减少了主处理单元与存储单元之间的数据移动。与现有工作相比,本文提出的近数据处理方法提升了 70%的性能和44%的能效。3)基于忆阻器的卷积神经网络加速方法。本文基于忆阻器同时具有存储和计算能力的特性提出适用于卷积神经网络的存算一体处理方法。基于忆阻器构建存算一体加速模块,设计专用的模块对卷积神经网络计算所需的操作进行支持。重点针对卷积操作,从提升加速模块空间和时间利用率的角度提出混合映射方法。空间上,利用卷积核并行、输入数据复用、输入通道累加等方式提高映射并行度;时间上,根据卷积层的计算量情况,权重被重映射到空闲的加速阵列中,以进行流水线平衡。实验结果表明,对于典型卷积神经网络VGG-16,相比基本模式,提出的混合映射将加速模块的性能提高了 25.1倍;相比现有工作,加速模块的能效提高了 25%。本文对面向大数据处理的应用性能优化方法进行了探索,所提出的设计与优化方法,可以为面向大数据处理的应用性能优化提供参考和解决方案。