论文部分内容阅读
传统的工作流系统无法满足企业构建数据密集型应用的需求,需要借助于Hadoop平台处理大数据的能力。现有的Hadoop工作流系统采用自定义的描述语言构建Hadoop工作流,无法与企业已有的工作流系统通信,导致企业难以使用已有系统服务与Hadoop平台共同构建分析处理海量数据的工作流。使用BPEL语言来构建Hadoop工作流既可以借助于传统工作流语言BPEL丰富表现能力、可以作为单个Web服务集成、支持长时间有状态的交互等优点,又可以使用Hadoop平台分析处理海量数据的能力,是一个解决现有问题的有效手段。
本文首先分析了使用Hadoop工作流开发数据密集型应用的意义和当前Hadoop工作流系统存在的一些不足,包括:无法与企业已有的工作流系统交互、表达能力弱、缺乏工作流层次的调度和监控等,然后提出了能够有效解决这些问题的面向Hadoop平台的数据密集型工作流系统。在此基础上,围绕着基于规则的模型转换方法、基于Hadoop工作流的公平调度方法和工作流运行时监控技术三个方面展开研究。在基于规则的模型转换方法方面,论文对Hadoop工作流模型和BPEL模型进行了定义,确定了模型转换规则,设计基于规则的模型转换框架,高效的完成了从Hadoop工作流模型到BPEL模型的转换。在基于Hadoop工作流的公平调度方法方面,论文提出了一种基于Hadoop工作流的公平调度方法FlowS。FlowS采用工作流池来组织工作流和分配资源,保证了工作流的隔离性。同时,该方法采用了工作流池动态构建算法,将资源公平的分配到各个工作流中去。在工作流运行时监控技术方面,论文采用持久化工作流模型和异步更新的方法,来降低视图展示的开销。同时,论文提出对每个活动的工作流建立监控实例来处理监控请求和失效发现,以此保证工作流正确执行,进一步降低监视开销。
最后,论文应用以上研究成果,设计和实现了面向Hadoop平台的数据密集型工作流系统。