论文部分内容阅读
数据是广泛分布于组织,公司,政府部门等单位的实际信息,并且知识是来源于信息的抽象概念。但数据被局限在应用程序,数据库,企业内部网,外联网,(可扩展标示语言)XML,甚至在平面文件或Excel表等中。目前,由于当今大量的数据在各种各样的系统间产生和处理,并且这些数据对决策和预测分析具有至关重要的作用,因此为了商业分析的用途,需要将数据转换和恢复成有意义的和有价值的信息。大多数处理大数据的公司拥有转换软件,来将供应商的数据建立到自己的组织结构中,或建立商业智能架构。 事实上,有些信息技术(IT)机构期待创造更高水平的技术改造下。对任何组织机构来说,数据最重要的一个部分,他们也正在努力学会操作容易的数据。因为无论是当前的数据还是历史数据,它都以任何形式的报表作为支撑,并且报表是做出所有重要管理决策的依据。 大多数公司都开始构建自己的数据库来存储、监测实时数据和历史数据。创建一个高效的数据库不是一件容易的事情。许多组织机构根据在分布式技术上的不同的应用程序被分成不同的部门。为了使来自不同部门的不同数据源之间完美融合,ETL(提取,转换和加载)工具被使用到。ETL工具作为一个集成器,首先从不同的源中提取数据;然后基于业务转换规则的首选格式将它转换,最后把它加载到衔接数据库或数据库中。 这些公司面临的具有挑战性的事情是:他们怎么能保证转换软件从每一个输入数据入口到正确输出的转换,并且对所需的记录的加载。很显然,在大型数据转换过程中,由于可能存在数据不匹配、误算或有用数据丢失,这会导致数据转换的失败,因此,保证正确转换是非常重要的。有几个资料对降低任务的风险进行了非常简单的讨论,其中强调的是,在大多数情况下,一个数据转换项目的失败会导致一个不成功的目标应用程序替换。尽管实际上这些企业赢得了较高的业务优势,例如,减少费用,提高了利润,强大的信息管理功能,但由于大量基础信息的迁移,他们在危险状态异常下依然承担着很大的风险。为了降低风险,检测出可能出现的错误以及证明数据已被正确地移动和转换,关键在于使用一个详尽的质量确定计划是。很显然这可以保证在工业中任务的顺利转换。 现有的质量检测方法都是是不可靠的,返回的结果有偏差,或不能提供数据差异的原因,或其他的局限性,如不能测试数据转换的每一个入口。由于现有方法的局限性,我们提出了一种大数据转换测试的新方式,其不需要采样或大量输入数据。这是一个基于数据的逆向工程概念的大数据转换的测试方法。数据逆向工程(DRE)是一个众所周知的方法,主要用于传统组件,包括分析遗留数据环境,从推导的逻辑模式中来提取现有的数据结构。因此,我们所提出的是一个综合的方法,反转了整个转换过程,并且ETL过程一旦成功,原始源数据体系可以从目标数据系统进行构建,并对每一个入口的字符串值进行比较。当且仅当数据可以转换回其原始状态时,数据转换测试才宣告成功。 由于数据逆向工程可以有助于获取可能的规范去实现和发现如何由此时的状态实现未来状态,我们提出的的框架实现了以下几点: 1.通过来自不同源数据系统的ETL过程构建自己的理想目标数据系统。 2.一旦目标数据系统构建成功,我们逆向工程从新的构造目标数据系统来检索原始源数据系统(称为逆转源数据系统)来完成ETL过程。 3.通过最初ETL过程的逆向工程成功检索逆转源数据系统后,针对原始源数据系统的任何违规行为,误算、数据类型不匹配等进行比较测试。 原始源数据系统可以追溯到目标数据系统来构建,在这个条件下,对每个字符串的值都进行比较测试。提出这种反转 ETL过程的方法有两个主要的原因:第一,提取阶段造成数据丢失;第二,成功执行预定义转换过程时产生附加的数据。由于所有的数据对于重现原始源数据库意义重大,因此,我们所提出的系统充分考虑通过在一个单独的数据系统中保存原始数据库来处理所有的数据。 所有过程都成功实现了,我们提出了系统有以下功能: 1.验证源数据库的每一个入口的正确转换,并且根据指定的业务需求和规则成功加载到正确的目标数据系统中。 2.确保了所有数据加载到数据库中,并没有出现数据丢失和截断。 3.确保了ETL申请被适当地驳回,并用默认值替换无效的数据报表。 4.确保了在规定和预期的时间内,将数据加载到数据仓库中,来确认在性能上的改进和可扩展性。 基于在转换/映射文件中定义的规则和模式,从原始源数据库到预定义目标数据库执行全球金融数据的数据转换过程,并且将整个过程的反转工程回溯构建源表,我们通过比较每一个原始源数据表和反转的源表的入口进行了测试。最终的测试结果表明,数据转换过程是成功的,并且出现没有任何缺陷,不规范,错误或值不匹配。