ETL数据处理测试框架的研究与设计

被引量 : 0次 | 上传用户:tongys
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
ETL(Extraction-Transformation-Loading)数据处理测试框架可以实现对ETL数据处理的模拟过程,通过框架测试结果数据与实际ETL处理结果数据进行对比分析,从单条数据的diff(different)到全部数据量的统计,从而达到全方位的对ETL数据处理过程进行测试的目的。ETL数据处理测试框架可以在不了解框架处理细节的前提下,完成对大数据的全面的、可靠的处理任务,同时在各个产品线进行敏捷开发,并在产品快速迭代的情况下,完成对各个产品线的数据回归。ETL数据处理测试框架运行于Hadoop之上,充分利用了Hadoop框架的分布式文件系统以及并行计算的特点;其将ETL过程抽象划分为不同的阶段,各个阶段又被划分为不同的MapReduce任务,交给Hadoop来调度和运行。为了能够保证使用者更加集中到自己的处理逻辑中,ETL数据处理测试框架实现了一套adapter框架,在该框架中只要通过配置mapping文件以及具体的function就可以实现数据的解析。目前框架能够兼容文本日志和PB日志两种日志格式,支持simple map、union、join三种比较复杂的场景,并且将ETL数据处理流程划分为不同的阶段,可分步运行调试,以达到快速定位问题的目的。通过将处理结果与基础数据进行diff测试,ETL数据处理测试框架将生成测试报告文件,可以直接在hdfs(Hadoop Distributed File System)上进行原生结果的展示,也可以以邮件的形式进行推送,或推送到bashboard。ETL数据处理测试框架的环境可以存在于线下测试环境(tunningbox)中,以及线上测试环境(沙盒模型)中,线下可以进行小数据量的常规测试和大数据量的集中测试,沙盒环境则可以进行回归测试。论文的论述还对ETL数据处理测试框架进行了应用说明和功能测试,大量测试用例证明该框架可实现预期的设计目标,并且可以有效地应用于实际生产。论文最后总结了ETL数据处理测试框架所实现的功能,在实现过程中遇到的问题以及对框架改进的展望。
其他文献
本文对基于功能的结构抗震设计中的一些问题进行了探讨,指出未来基于功能的结构抗震设 计应具备如下主要特点:分别考虑反映结构抗震设计“共性”和“个性”的两类目标功能水平;
云南省元江县白族的丧葬习俗具有自己独特的内容和方式 ,受其它民族的文化观念与习俗的影响 ,显示了作为多民族地区的元江白族丧葬习俗的特异性和包融性。
随着煤炭资源兼并重组整合,煤炭企业的规模在扩大,产量在提高,战线也在拉长,分支众多,人员增加,给集团管理和经营管理带来风险和难度。国有煤炭企业有必要对自己的内部控制机
程千帆先生的《杜诗镜铨批钞》虽然在形式上是评点,但近于读书札记。该书在内容上可以大致划分为注释和评论两个方面,而在研究方法上则主要运用了"以杜证杜""同中见异""推源
目的:应用静息态功能磁共振成像(resting-state functional MRI, rs-fMRI)基于体素-镜像同伦连接(voxel-mirrored homotopic connectivity, VMHC)方法,探讨带状疱疹后神经痛(
文章较详细的分析了国防费所具有的性质与职能。国防费支出对于一国经济增长一般有正、负两个方面的效应,如果处理得当,利用国防费杠杆使得经济增长的正向效应占主导地位。合
利用平面角谱理论,建立厄米-高斯光束和拉盖尔-高斯光束在负折射率平板透镜系统中的傍轴传输模型,研究负折射率平板透镜中厄米-高斯光束和拉盖尔-高斯光束强度聚焦及相位补偿
期刊
本文首先对"研究"这一行为进行诠释与分析,进而探索AA建筑联盟学院的预科课程,了解建筑专业的学生是如何有效实现由"调研"到"洞察",再到"形成概念","概念表达"这一设计过程,旨在为设计
粉砂土的毛细作用较发达,在季冻区冻胀现象较为显著。为进一步了解粉砂土的冻胀规律,对粉砂土试件在不同含水率和压实度条件下进行室内冻胀试验,得出了不同条件下粉砂土的冻