论文部分内容阅读
科学工作流不仅给科研人员提供了可视化的编程界面,而且使得科研人员可以利用包含计算资源和数据集在内的分布式系统进行协作,从而可以进行大规模的科学实验与知识探索。而云计算以其特有的按需付费模式以及可扩展性强的特点,自问世起,就受到了大量关注,为科学工作流提供了一个良好的运行环境。云环境下科学工作流的数据布局问题成为了科学工作流研究领域的一个热点问题。云环境下,数据中心分布在世界各地,科学工作流在运行期间不可避免地需要进行跨数据中心数据传输,而不同数据布局方案带来的数据布局费用各不相同,这将在很大程度上影响工作流的执行费用。为此,本文在尽可能兼顾数据中心负载均衡的基础上,以降低科学工作流数据布局费用为目标,提出了一种基于任务分配和数据集副本的科学工作流数据布局方法。该方法首先从任务与任务的关系入手,定量计算任务之间的依赖度,接着在此基础上进行任务分配。结合云环境下科学工作流的执行特点,将数据布局方法分成初始阶段和运行阶段两个阶段开展,基于任务分配结果分别为初始阶段和运行阶段完成初始数据集和中间数据集在不同数据中心的布局,并根据不同的副本建立条件建立数据集副本以进一步减少数据传输费用,从而实现科学工作流运行中数据布局的费用优化。最后通过仿真实验验证了本文方法的可行性与有效性。