论文部分内容阅读
伴随着数据仓库的深入应用和中国企业国际化进程的深化,如何对来自国内外的客户数据的进行有效的管理和应用已经成为关系到成长中的中国跨国企业进一步推进自身信息化建设的重要关键问题,本文开展支持数据仓库系统国际化的一系列关键技术研究,一方面探索数据分析和应用过程中需要解决的一系列技术难题,如数据抽取和存储过程中常见的多国语言字符集兼容性,构建健壮性的数据装载体系,如何对多数据源ETL加载数据的过程进行统一控制和事后审计处理等问题,另一方面本论文选择了目前比较流行的商务智能产品Informatica、Oracle、Teradata为基础平台构建一个原型库,希望以其为切入点,可以进一步推进数据仓库技术的相关理论和应用研究,有助于推广该技术从而满足企业全球化进程中面向客户需求和切入国际市场的要求。为有兴趣部署和实施类似系统的单位/组织提供一个技术实践。本论文开展支持数据仓库系统国际化的一系列关键技术研究,主要取得了以下几个方面的主要成果:第一、为解决源数据和目标数据库的字符集转换的问题,本论文特别提出了将多语言字符集数据装载技术(MEETL)应用于数据库和装载工具的数据流加工,将该方法引向新的重要领域从而在国际上占有一席之地;第二、对源和目标数据库以及装载工具之间的字符集转换的问题进行探索;在MEETL技术的基础上提出并证明了正确移动数据条件下的ETL字符集兼容性定理(Character Set Conversion Compatible Theorem,简称CSCCT)和代码页兼容性定理(Code Page Compatible Theorem简称CPCT)。第三、提出改进的UTF-8与编码Unicode转换算法UTF8DecodeUnicode,并通过引入自定义UTF字符集转换函数的办法,绕过Teradata数据库自身的字符集转换机制,从而解决了从Oracle源数据到Teradata目标数据仓库ETL过程中在处理某些非兼容性Unicode字符时产生6705错误的问题。第四、通过实现一个具体的应用模型系统,完成了多数据源ETL加载数据的控制处理。本文提出了三种数据处理控制技术:过程同步控制(Process Synchronization Control,简称PSC)、时间范围控制(Time Range Control,简称TRC)和通用审计控制(Common Audit Control,简称CAC)。它们能够优化ETL架构、提高数据装载的效率、并且定义审计规则和保存审计历史数据用于日后分析和跟踪调错,防止错误数据载入数据仓库的情况发生。第五、建立具有高处理能力和高扩展能力的数据仓库平台,以适应处理装载日益庞大市场数据的要求。这就要求有一套能够缩短生产系统的运行时间和占用更少的系统资源的数据装载体系架构。现有的大部分数据仓库系统所有的生产程序使用相同的目标数据库用户名/密码,这样不仅系统安全性会有问题,同时由于用户名相同,不同的生产程序对系统资源的占用也存在相同的优先级。新的设计思路是不同主题域的生产程序运行时可以使用与该主题域相对应的账户,减少生产程序之间运行过程的相互依赖性反过来也就保证了生产系统加载过程的稳定性。