论文部分内容阅读
作为新兴的计算模式,云计算的可扩展性和资源按需分配等特性使其在学术界和业界获得巨大的发展动力;科学工作流管理系统能为科学计算提供有效的数据和任务依赖管理、任务调度与执行、来源跟踪等。全球正进入大数据时代,数据的增长速度大于计算资源的增长,传统的工作流解决方案已经无法应对不断增长的数据规模和分析复杂度。针对大数据挑战,本文提出基于多基础平台的云工作流服务框架,将工作流作为云计算中的服务,处理PB级别数据规模的科学问题。论文中首先讨论云工作流的基本概念和理论基础,然后提了一种全新的面向多基础平台的云工作流服务框架,该框架能够将科学工作流技术与云计算技术无缝集成,提供工作流即服务应用模式,为科研人员提供便捷、高效的云工作流服务平台。主要内容如下:1)首先分析科学工作流与云计算集成所面临的挑战,并讨论4种科学工作流参考架构在云计算环境中的部署方案,结合每个方案的利弊和实际需求,选择合适的集成方案。2)然后提出参考服务架构,涵盖了将多种科学工作流系统与多基础云平台集成的主要方面。云工作流服务框架由云工作流管理服务、云资源管理器等8个主要组件以及6个协同交互接口组成。同时,提出云资源管理器的实现参考架构,负责云计算环境中虚拟资源的供应与管理。3)为了验证云工作流服务框架的可行性、性能以及可扩展性,本文基于OpenNebula和Eucalyptus云计算平台对服务框架进行实现,将云资源管理器部署在云计算平台之上,对云平台资源操作提供服务化支持;基于Falkon任务调度框架定制高性能任务调度服务,支持大规模工作流任务调度;基于Swift科学工作流管理系统进行服务化封装,支持工作流管理即服务模式;实现高可用工作流客户端,支持高效的工作流应用编辑、编译和提交。4)设计全方位的实验验证服务框架的功能可用性、云资源管理效率以及服务框架整体性能;使用NAS MODIS图片处理工作流验证实现方案的可行性和性能;最后,将云工作流实现方案部署在Science@Guoshi平台上作为产品部署案例,提供Montage卫星云图处理工作流服务。