论文部分内容阅读
随着大数据时代的到来,数据集成变得越来越重要。ETL(Extract,Transform,Load)是一种数据集成工具,通常包括三个阶段:数据抽取、数据转换&清洗、数据装载。而传统ETL和ELT执行过程存在性能和功能上的弊端,不能很好地满足一些场景的应用需求。为此,需要研究一种高效的ETL数据集成方法。 首先,为了解决数据集成过程中的数据虚拟化问题,本文提出了一种数据资源空间模型—EVP+(Effcetive,Virtual,Physical,Plus)。该模型包含三层,即:物理层、虚拟层、有效层,每层承载不同形态的数据资源。EVP+模型通过模式映射,完成物理资源到虚拟资源的转换;通过内容映射,完成虚拟资源到有效资源的转换。上层应用可通过统一的数据访问接口对多源异构数据进行访问,消除了数据资源的结构化差异。 其次,针对传统ETL数据集成过程中存在数据中转区(Data Staging Area)的弊端,本文提出了一种新型的ETL数据集成方法—TEL。该方法基于EVP+模型,首先通过模式映射完成虚拟数据转换,然后再进行数据定制化抽取,最后加载数据到目标数据源中。此外,TEL方法具备实时数据查询能力,区别于传统ETL单一的数据抽取功能。该TEL数据集成方法减少了中间缓存区的时延,一定程度上可提高系统性能。 再次,针对目前ETL重复抽取,数据冗余,查询效率低下的问题,本文提出了一种基于机器学习的数据复用方法—DSML(Data Sharing based on Machine Learning)。从系统日志中提取出反映用户查询习惯的特征值,利用机器学习的方法挖掘出关联信息,从而构建符合用户查询行为的预测模型。利用该模型,系统只缓存符合用户操作习惯的数据,避免数据的重复抽取,提高了数据的重用性,降低了系统的响应时间。 最后,为了对TEL数据集成方法进行测评,本文针对不同的ETL应用场景提出了一种基准测试方法—TEL-Bench,包括TEL-Q、TEL-S、TEL-M、TEL-D四个执行过程。此外,本文定义了响应时间(Response Time)、执行效率(Execution Efficiency)、缓存需求量(Cache Size in Need)、总存取时间(Total Access Time)、缓存缺页率(Cache MissingRatio)五个性能度量指标,并依此对TEL系统进行了测评。