面向Hadoop平台的数据密集型工作流系统的设计与实现

来源 :中国科学院研究生院中国科学院大学 | 被引量 : 0次 | 上传用户：shewe111

【摘要】

：

传统的工作流系统无法满足企业构建数据密集型应用的需求，需要借助于Hadoop平台处理大数据的能力。现有的Hadoop工作流系统采用自定义的描述语言构建Hadoop工作流，无法与企业已

【作者】

：

李奇原

【机构】

：

中国科学院大学

【出处】

：

中国科学院研究生院中国科学院大学

【发表日期】

：

2012年期

【关键词】

：

数据密集型计算工作流系统 Hadoop平台 BPEL模型工作流调度

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

传统的工作流系统无法满足企业构建数据密集型应用的需求，需要借助于Hadoop平台处理大数据的能力。现有的Hadoop工作流系统采用自定义的描述语言构建Hadoop工作流，无法与企业已有的工作流系统通信，导致企业难以使用已有系统服务与Hadoop平台共同构建分析处理海量数据的工作流。使用BPEL语言来构建Hadoop工作流既可以借助于传统工作流语言BPEL丰富表现能力、可以作为单个Web服务集成、支持长时间有状态的交互等优点，又可以使用Hadoop平台分析处理海量数据的能力，是一个解决现有问题的有效手段。　　本文首先分析了使用Hadoop工作流开发数据密集型应用的意义和当前Hadoop工作流系统存在的一些不足，包括:无法与企业已有的工作流系统交互、表达能力弱、缺乏工作流层次的调度和监控等，然后提出了能够有效解决这些问题的面向Hadoop平台的数据密集型工作流系统。在此基础上，围绕着基于规则的模型转换方法、基于Hadoop工作流的公平调度方法和工作流运行时监控技术三个方面展开研究。在基于规则的模型转换方法方面，论文对Hadoop工作流模型和BPEL模型进行了定义，确定了模型转换规则，设计基于规则的模型转换框架，高效的完成了从Hadoop工作流模型到BPEL模型的转换。在基于Hadoop工作流的公平调度方法方面，论文提出了一种基于Hadoop工作流的公平调度方法FlowS。FlowS采用工作流池来组织工作流和分配资源，保证了工作流的隔离性。同时，该方法采用了工作流池动态构建算法，将资源公平的分配到各个工作流中去。在工作流运行时监控技术方面，论文采用持久化工作流模型和异步更新的方法，来降低视图展示的开销。同时，论文提出对每个活动的工作流建立监控实例来处理监控请求和失效发现，以此保证工作流正确执行，进一步降低监视开销。　　最后，论文应用以上研究成果，设计和实现了面向Hadoop平台的数据密集型工作流系统。

其他文献

在HMPP框架下优化GPU程序的执行效率

作为具有极大潜力的计算硬件设备,GPU正越来越多的被用于科学计算领域,对具有大量并行性的高吞叶量计算等应用进行计算加速。但在GPU上运行的通用计算程序的编写和优化往往较

学位

HMPP框架自动生成循环变换存储排列优化GPU程序通用计算程序

代理移动IPv6协议域间切换技术的研究

代理移动IPv6(Proxy Mobile Internet Protocol Version 6，PMIPv6)协议是一个基于网络的本地移动管理协议。在移动管理协议的信令交互中，基于网络的移动管理协议不需要移动节点

学位

IPv6协议域间切换技术路由优化模型逻辑接口移动节点

嵌入式实时系统的低功耗调度算法研究

随着半导体芯片技术的快速发展，处理器芯片的集成度和性能越来越高，而体积越来越小。这直接导致处理器单位面积功耗呈指数级增加，能耗问题日益突出。尤其在嵌入式实时系统领域，实

学位

嵌入式实时系统低功耗调度算法动态电压调节依赖进程

多租户SAAS网站关键技术的研究

软件即服务(Software as a Service)的出现将软件商业模式从商品供需模式转换为服务供需模式，这符合行业发展的潮流，必将成为软件行业未来发展的方向。多租户是SAAS的核心技术，

学位

多租户SAAS网站负载均衡分布式缓存FreeMarker标签字段扩展

基于规模化质谱数据的肽鉴定方法研究

基于质谱数据的蛋白质鉴定已经成为蛋白质组学的基础技术。规模化的蛋白质鉴定通常采用“鸟枪法”,其基本思路是将生物样品中的蛋白质酶切成肽段,经过色谱分离进入质谱仪,质

学位

蛋白质鉴定肽段母离子质量校准质谱数据特征谱峰

不确定性数据中概率图模型的构建

近年来，随着数据采集和处理等相关领域，比如金融，军事，财务，通讯等方面的发展，不确定性数据的重要性渐渐为人们所认同。　　在不确定性数据的研究领域，所面对的挑战可归结为:需要

学位

不确定性数据贝叶斯网概率图模型数据分析依赖分析法

基于NSGA-Ⅱ的四臂天线演化设计

天线作为微波通信领域的基本的设备，凡是利用电磁波来进行信息的传递和接收的相关领域均是应用天线和天线的相关的技术来实施的，其被广泛的应用到电视广播，航天航空及遥感等实际

学位

四臂天线演化算法NSGA-Ⅱ电磁仿真软件优化设计

我国中西部地区县级教育信息化建设模式研究

我国基础教育随着新课改的不断深入，教育信息化建设的重要性越显突出，国家、社会和地方政府对中小学教育信息化建设投入也在逐年攀升。但对于我国广袤的、经济相对落后的中西部

学位

县级教育信息化建设调度算法服务器集群算法

基于物理的多种流体和多种模型的耦合模拟研究

在日常生活中，我们身边充斥着流体现象。流体现象的模拟在影视特效、灾害预防等应用中具有极为重要的意义。因此近十年来，流体现象的模拟一直是计算机图形学领域中的热点问题。

学位

气泡模拟多种不可相溶流体模拟大规模场景模拟区域划分多种流体模型

校园网络的数字证书应用研究

目前,校园网系统中普遍以“用户名+静态密码”作为用户身份认证的方式,这种身份认证的方式存在着很大的安全风险,比如静态密码的泄露、非法用户的登录以及用户对于自己所做的

学位

数字证书校园网系统身份认证PKI

面向Hadoop平台的数据密集型工作流系统的设计与实现

与本文相关的学术论文