论文部分内容阅读
近些年,企业规模和业务不断向多个地区扩展,企业数据环境也因此变得更加复杂。ETL,即数据抽取、转换和加载过程,是构建数据仓库的重要环节,所占工作量很大。如何提高ETL的处理能力来适应复杂的数据环境,渐渐成为了学者们的研究热点,已取得了一定的成果。但是这些ETL模型理论考虑的数据环境因素较简单,难以胜任分布式环境下的多处理器ETL工作环境。本文从ETL工具模型设计和任务调度策略入手解决了分布式数据环境下的部分ETL数据操作问题和执行效率问题。本文的主要工作和创新点可以归为以下几个方面:1.从分布式ETL的整个执行过程角度出发,文章提出了一种改进的分布式ETL模型——基于任务调度的集群式ETL任务调度模型,并对其进行了实现。此模型分为工作流生成模块和任务调度模块。任务调度模块的引入弥补了以往理论只重视工作流生成,而忽视工作流执行的局限性。处理器集群式管理,在一定程度上提高了系统的自治性,降低了数据源和网络间的差异性。2.基于任务调度的集群式ETL模型加入了对ETL处理器的管理功能。功能的实现增强了系统运行的稳定性和可靠性,这是在以往的ETL模型理论中所忽视的问题。3.围绕着处理器异构性问题,我们从两个方面进行解决,即硬件配置异构性问题和软件异构性问题。对于硬件异构性,我们通过利用异构集群ETL负载均衡算法平衡集群内部处理器的任务执行,减少集群异构性对ETL工作执行的影响,充分利用了处理器资源。采用Web服务组合技术使ETL执行与处理器平台无关,这样就解决了处理器软件平台的异构性问题。4.本文采用启发式算法研究分布式ETL下的任务调度优化问题。针对分布式ETL任务特点,我们将离散型粒子算法应用到分布式ETL工具中。实验证明该算法的应用具有一定的优势和可行性。