论文部分内容阅读
近年来,随着云计算和大数据等新兴技术的兴起,高能物理学、天体物理学、生物信息学等以数据为中心的科学领域开展的大型科学实验计算规模愈加庞大,产生和积累的科学数据量显著增长,对科学数据的分析挖掘更为复杂深入,是典型的科学大数据应用。科学大数据应用通常可建模成科学工作流,其执行所需的计算和存储资源规模庞大,需多个科研机构协作,聚合各自数据中心资源支撑科学大数据应用的海量数据存储和大规模科学工作流计算,实现多数据中心环境下科学工作流的分布执行。然而,由于各数据中心间网络带宽资源相对有限,科学工作流分布执行过程中跨数据中心的大量数据传输易成为性能瓶颈。作为影响跨数据中心数据传输的重要因素,数据合理布局和科学工作流任务高效调度可以有效减小数据中心间数据传输量,是提高科学工作流执行效率的关键。现有针对数据布局和工作流调度的研究,未全面考虑科学大数据应用关联数据访问、初始输入数据固定、海量中间数据存储等执行特征,无法实现数据合理布局和工作流任务高效调度,难以进一步优化科学大数据应用的执行。为实现多数据中心环境下科学大数据应用的执行优化,本硕士论文从以下三方面展开研究:首先,针对海量数据的布局优化进行研究。科学工作流在各数据中心的分布执行需以海量的初始数据作为输入,因此相关初始数据被各数据中心频繁请求访问。为了减小对初始数据的访问代价,本文在考虑数据放置本地性的基础上,引入数据访问模式特征以及数据中心存储等约束,将数据布局问题建模为整数规划问题,提出一种基于拉格朗日松弛的高效数据放置算法。然后,针对复杂科学工作流的任务调度优化进行研究。在初始数据合理布局的基础上,为了减小工作流执行过程中跨数据中心的数据通信,本文综合考虑科学工作流复杂依赖关系、初始输入数据预先放置、中间数据放置以及数据中心计算、存储限制等特征,对工作流调度问题进行建模,准确刻画科学工作流调度的特点。同时,根据模型提出了一个基于多层粗化、细化图划分框架并采用特殊混合遗传算法的启发式方法。最后,实现并部署科学大数据应用工作流管理系统。为了进一步验证本文提出的执行优化策略的有效性,本文基于现有的工作流管理系统进行二次开发,实现科学大数据应用执行的数据布局和工作流任务调度方法。同时基于东南大学云计算中心、曙光计算中心等多数据中心环境进行系统部署,验证本文研究成果的有效性。本文对多数据中心环境下科学大数据应用的执行优化机制进行深入研究,提出合理的数据布局方法和高效的工作流任务调度方法。通过大量的仿真实验和真实多数据中心环境实验表明,本文提出的优化策略能够有效减小科学工作流执行过程中跨数据中心的数据传输,实现科学大数据应用的执行优化。