面向Hadoop平台的数据密集型工作流系统的设计与实现

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:shewe111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的工作流系统无法满足企业构建数据密集型应用的需求,需要借助于Hadoop平台处理大数据的能力。现有的Hadoop工作流系统采用自定义的描述语言构建Hadoop工作流,无法与企业已有的工作流系统通信,导致企业难以使用已有系统服务与Hadoop平台共同构建分析处理海量数据的工作流。使用BPEL语言来构建Hadoop工作流既可以借助于传统工作流语言BPEL丰富表现能力、可以作为单个Web服务集成、支持长时间有状态的交互等优点,又可以使用Hadoop平台分析处理海量数据的能力,是一个解决现有问题的有效手段。   本文首先分析了使用Hadoop工作流开发数据密集型应用的意义和当前Hadoop工作流系统存在的一些不足,包括:无法与企业已有的工作流系统交互、表达能力弱、缺乏工作流层次的调度和监控等,然后提出了能够有效解决这些问题的面向Hadoop平台的数据密集型工作流系统。在此基础上,围绕着基于规则的模型转换方法、基于Hadoop工作流的公平调度方法和工作流运行时监控技术三个方面展开研究。在基于规则的模型转换方法方面,论文对Hadoop工作流模型和BPEL模型进行了定义,确定了模型转换规则,设计基于规则的模型转换框架,高效的完成了从Hadoop工作流模型到BPEL模型的转换。在基于Hadoop工作流的公平调度方法方面,论文提出了一种基于Hadoop工作流的公平调度方法FlowS。FlowS采用工作流池来组织工作流和分配资源,保证了工作流的隔离性。同时,该方法采用了工作流池动态构建算法,将资源公平的分配到各个工作流中去。在工作流运行时监控技术方面,论文采用持久化工作流模型和异步更新的方法,来降低视图展示的开销。同时,论文提出对每个活动的工作流建立监控实例来处理监控请求和失效发现,以此保证工作流正确执行,进一步降低监视开销。   最后,论文应用以上研究成果,设计和实现了面向Hadoop平台的数据密集型工作流系统。
其他文献
作为具有极大潜力的计算硬件设备,GPU正越来越多的被用于科学计算领域,对具有大量并行性的高吞叶量计算等应用进行计算加速。但在GPU上运行的通用计算程序的编写和优化往往较
代理移动IPv6(Proxy Mobile Internet Protocol Version 6,PMIPv6)协议是一个基于网络的本地移动管理协议。在移动管理协议的信令交互中,基于网络的移动管理协议不需要移动节点
随着半导体芯片技术的快速发展,处理器芯片的集成度和性能越来越高,而体积越来越小。这直接导致处理器单位面积功耗呈指数级增加,能耗问题日益突出。尤其在嵌入式实时系统领域,实
软件即服务(Software as a Service)的出现将软件商业模式从商品供需模式转换为服务供需模式,这符合行业发展的潮流,必将成为软件行业未来发展的方向。多租户是SAAS的核心技术,
基于质谱数据的蛋白质鉴定已经成为蛋白质组学的基础技术。规模化的蛋白质鉴定通常采用“鸟枪法”,其基本思路是将生物样品中的蛋白质酶切成肽段,经过色谱分离进入质谱仪,质
近年来,随着数据采集和处理等相关领域,比如金融,军事,财务,通讯等方面的发展,不确定性数据的重要性渐渐为人们所认同。   在不确定性数据的研究领域,所面对的挑战可归结为:需要
天线作为微波通信领域的基本的设备,凡是利用电磁波来进行信息的传递和接收的相关领域均是应用天线和天线的相关的技术来实施的,其被广泛的应用到电视广播,航天航空及遥感等实际
我国基础教育随着新课改的不断深入,教育信息化建设的重要性越显突出,国家、社会和地方政府对中小学教育信息化建设投入也在逐年攀升。但对于我国广袤的、经济相对落后的中西部
在日常生活中,我们身边充斥着流体现象。流体现象的模拟在影视特效、灾害预防等应用中具有极为重要的意义。因此近十年来,流体现象的模拟一直是计算机图形学领域中的热点问题。
目前,校园网系统中普遍以“用户名+静态密码”作为用户身份认证的方式,这种身份认证的方式存在着很大的安全风险,比如静态密码的泄露、非法用户的登录以及用户对于自己所做的