基于任务调度的集群式ETL模型构建研究

来源 :河北师范大学 | 被引量 : 0次 | 上传用户:hbhhl2006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年,企业规模和业务不断向多个地区扩展,企业数据环境也因此变得更加复杂。ETL,即数据抽取、转换和加载过程,是构建数据仓库的重要环节,所占工作量很大。如何提高ETL的处理能力来适应复杂的数据环境,渐渐成为了学者们的研究热点,已取得了一定的成果。但是这些ETL模型理论考虑的数据环境因素较简单,难以胜任分布式环境下的多处理器ETL工作环境。本文从ETL工具模型设计和任务调度策略入手解决了分布式数据环境下的部分ETL数据操作问题和执行效率问题。本文的主要工作和创新点可以归为以下几个方面:1.从分布式ETL的整个执行过程角度出发,文章提出了一种改进的分布式ETL模型——基于任务调度的集群式ETL任务调度模型,并对其进行了实现。此模型分为工作流生成模块和任务调度模块。任务调度模块的引入弥补了以往理论只重视工作流生成,而忽视工作流执行的局限性。处理器集群式管理,在一定程度上提高了系统的自治性,降低了数据源和网络间的差异性。2.基于任务调度的集群式ETL模型加入了对ETL处理器的管理功能。功能的实现增强了系统运行的稳定性和可靠性,这是在以往的ETL模型理论中所忽视的问题。3.围绕着处理器异构性问题,我们从两个方面进行解决,即硬件配置异构性问题和软件异构性问题。对于硬件异构性,我们通过利用异构集群ETL负载均衡算法平衡集群内部处理器的任务执行,减少集群异构性对ETL工作执行的影响,充分利用了处理器资源。采用Web服务组合技术使ETL执行与处理器平台无关,这样就解决了处理器软件平台的异构性问题。4.本文采用启发式算法研究分布式ETL下的任务调度优化问题。针对分布式ETL任务特点,我们将离散型粒子算法应用到分布式ETL工具中。实验证明该算法的应用具有一定的优势和可行性。
其他文献
随着信息技术和网络技术的高速发展及人们居住理念的变化与提升,居室的物理空间和豪华的装修不再是人们追求的最终目标,人们越来越追求生活细节的简单化和智能化,希望在日常家居
With the rapid development of computer vision technology field, three-dimensional profile reconstruction technique is the hotspot. This technology integrates op
随着无线通信网络技术的进步和多媒体服务的兴起,移动通信已经成为当今通信领域内最为活跃和发展最为迅速的领域之一,也是21世纪对人类的生活和社会发展有着重大影响的科学技术
线性规划作为运筹学的一个重要分支,广泛的运用到生产和制造业之中。人们通过建立线性规划模型并求解,来得到最优的生产计划。但是如何对于线性规划结果的解释和调整,来获得
随着网络、通信、多媒体计算的迅猛发展,嵌入式系统得到了广泛的应用,实时系统的应用也逐渐从传统的科学研究、国防、工业控制等领域扩展到人类社会的方方面面。实时系统的研
随着互联网多媒体技术的发展,用户希望能看到信息更加丰富,效果更加生动的页面。无论是在电子商务活动和互动游戏等应用领域,还是在图形图像等研究领域,网络化三维建模作为反映实
直升机巡检输电线路图像背景复杂多变,目标物众多,给边缘检测和后续的识别诊断带来很大困难。本文结合实际项目的应用需求,以直升机巡检输电线路图像为实验数据,针对直升机巡
多租户数据存储是软件及服务(SaaS, Software as a Service)中一个重要的研究内容。针对SaaS应用“单实例多租赁”这一特点,人们提出了很多解决多租户数据存储问题的方法,其
作为软件生命周期中必不可少的阶段,软件测试是保障软件安全性和可靠性的重要手段。随着并行程序逐渐成为主流,软件测试的研究方向也逐渐向并行方面转移。然而,并行程序通常由多
随着计算机技术的发展进步,计算机视觉技术也在发生着日新月异的改进。其中作为这项技术中的重要组成部分的运动目标检测和跟踪技术也在日益完善和发展。尽管如此,在我们的实