Big Data Transformation Testing Based on Data Reverse Engineering

来源 :四川大学 | 被引量 : 0次 | 上传用户:zz_davidli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据是广泛分布于组织,公司,政府部门等单位的实际信息,并且知识是来源于信息的抽象概念。但数据被局限在应用程序,数据库,企业内部网,外联网,(可扩展标示语言)XML,甚至在平面文件或Excel表等中。目前,由于当今大量的数据在各种各样的系统间产生和处理,并且这些数据对决策和预测分析具有至关重要的作用,因此为了商业分析的用途,需要将数据转换和恢复成有意义的和有价值的信息。大多数处理大数据的公司拥有转换软件,来将供应商的数据建立到自己的组织结构中,或建立商业智能架构。  事实上,有些信息技术(IT)机构期待创造更高水平的技术改造下。对任何组织机构来说,数据最重要的一个部分,他们也正在努力学会操作容易的数据。因为无论是当前的数据还是历史数据,它都以任何形式的报表作为支撑,并且报表是做出所有重要管理决策的依据。  大多数公司都开始构建自己的数据库来存储、监测实时数据和历史数据。创建一个高效的数据库不是一件容易的事情。许多组织机构根据在分布式技术上的不同的应用程序被分成不同的部门。为了使来自不同部门的不同数据源之间完美融合,ETL(提取,转换和加载)工具被使用到。ETL工具作为一个集成器,首先从不同的源中提取数据;然后基于业务转换规则的首选格式将它转换,最后把它加载到衔接数据库或数据库中。  这些公司面临的具有挑战性的事情是:他们怎么能保证转换软件从每一个输入数据入口到正确输出的转换,并且对所需的记录的加载。很显然,在大型数据转换过程中,由于可能存在数据不匹配、误算或有用数据丢失,这会导致数据转换的失败,因此,保证正确转换是非常重要的。有几个资料对降低任务的风险进行了非常简单的讨论,其中强调的是,在大多数情况下,一个数据转换项目的失败会导致一个不成功的目标应用程序替换。尽管实际上这些企业赢得了较高的业务优势,例如,减少费用,提高了利润,强大的信息管理功能,但由于大量基础信息的迁移,他们在危险状态异常下依然承担着很大的风险。为了降低风险,检测出可能出现的错误以及证明数据已被正确地移动和转换,关键在于使用一个详尽的质量确定计划是。很显然这可以保证在工业中任务的顺利转换。  现有的质量检测方法都是是不可靠的,返回的结果有偏差,或不能提供数据差异的原因,或其他的局限性,如不能测试数据转换的每一个入口。由于现有方法的局限性,我们提出了一种大数据转换测试的新方式,其不需要采样或大量输入数据。这是一个基于数据的逆向工程概念的大数据转换的测试方法。数据逆向工程(DRE)是一个众所周知的方法,主要用于传统组件,包括分析遗留数据环境,从推导的逻辑模式中来提取现有的数据结构。因此,我们所提出的是一个综合的方法,反转了整个转换过程,并且ETL过程一旦成功,原始源数据体系可以从目标数据系统进行构建,并对每一个入口的字符串值进行比较。当且仅当数据可以转换回其原始状态时,数据转换测试才宣告成功。  由于数据逆向工程可以有助于获取可能的规范去实现和发现如何由此时的状态实现未来状态,我们提出的的框架实现了以下几点:  1.通过来自不同源数据系统的ETL过程构建自己的理想目标数据系统。  2.一旦目标数据系统构建成功,我们逆向工程从新的构造目标数据系统来检索原始源数据系统(称为逆转源数据系统)来完成ETL过程。  3.通过最初ETL过程的逆向工程成功检索逆转源数据系统后,针对原始源数据系统的任何违规行为,误算、数据类型不匹配等进行比较测试。  原始源数据系统可以追溯到目标数据系统来构建,在这个条件下,对每个字符串的值都进行比较测试。提出这种反转 ETL过程的方法有两个主要的原因:第一,提取阶段造成数据丢失;第二,成功执行预定义转换过程时产生附加的数据。由于所有的数据对于重现原始源数据库意义重大,因此,我们所提出的系统充分考虑通过在一个单独的数据系统中保存原始数据库来处理所有的数据。  所有过程都成功实现了,我们提出了系统有以下功能:  1.验证源数据库的每一个入口的正确转换,并且根据指定的业务需求和规则成功加载到正确的目标数据系统中。  2.确保了所有数据加载到数据库中,并没有出现数据丢失和截断。  3.确保了ETL申请被适当地驳回,并用默认值替换无效的数据报表。  4.确保了在规定和预期的时间内,将数据加载到数据仓库中,来确认在性能上的改进和可扩展性。  基于在转换/映射文件中定义的规则和模式,从原始源数据库到预定义目标数据库执行全球金融数据的数据转换过程,并且将整个过程的反转工程回溯构建源表,我们通过比较每一个原始源数据表和反转的源表的入口进行了测试。最终的测试结果表明,数据转换过程是成功的,并且出现没有任何缺陷,不规范,错误或值不匹配。
其他文献
随着微机电技术(MEMS)、无线通信技术的进步,出现了大量的具有无线通信和数据处理能力的传感器件,这些器件通过一定协议构成自组织网络,该网络可以进行数据收集和传输,为用户
带式输送机作为散装物料输送的理想设备,已经被广泛应用在多个领域,对输送机的动力学分析也显得尤为重要。在输送机系统中,数量最多的构件是托辊,托辊质量占整机重量的30%以
随着计算机软件的飞速发展,软件工程研究的日益深入,软件需求成为贯穿于整个软件开发过程中的核心因素,这使得软件需求的管理成为软件工程领域的新热点。需求变更控制是软件需求
数字签名是对传统手写签名的模拟,它具有防伪造、防篡改和防抵赖等特点,在电子商务和电子政务中有重要应用。随着数字签名研究的不断深入,近年来在理论和应用研究上相继出现了许
移动Ad Hoc网络是由一组可移动节点组成的网络,具有自组织功能,采用分布式管理系统,能动态的适应环境变化,在战场、灾难救援等极端环境下发挥出很大的优势。随着Ad Hoc网路应用范
本课题来源于教育部的“现代远程教育关键技术与支撑服务系统天地网结合项目”中的“教育信息资源保障用户身份认证系统研究”,目标是设计基于B样条曲线几何特征的身份认证系
随着信息技术、Internet技术以及计算机产业的迅速发展,嵌入式系统已经成为当前IT产业最瞩目的焦点之一。基于嵌入式的网络视频监控系统是当前嵌入式应用开发领域的一个热门课
随着网格技术的不断发展,网格中的信息资源也随之多样化,其类型由传统的结构化资源延伸到半结构化和非结构化资源。用户难以统一和透明地获取这些异构资源中的有用数据,因此
无线传感器网络[1-4](Wireless Sensor Network:WSN)由一组微小型功能齐全的MEMS装置构成,这些微型装置包括传感器、无线发射器和接收器、电源,它们分布在一个地理区域中对该区
Web应用已经在各行各业扮演了越来越重要的角色,受到了来自大量匿名用户的访问,这其中也包括恶意用户。这种广泛的应用导致 web应用程序容易受到各种攻击,如 SQL注入(C组)和跨站点