基于数据虚拟化的数据集成方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：xiaoshuanshuan521521

【摘要】

：

随着大数据时代的到来，数据集成变得越来越重要。ETL(Extract，Transform，Load)是一种数据集成工具，通常包括三个阶段:数据抽取、数据转换&清洗、数据装载。而传统ETL和ELT执行过

【作者】

：

郭树盛

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2015年期

【关键词】

：

数据集成虚拟资源 ETL工具 EVP+模型机器学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着大数据时代的到来，数据集成变得越来越重要。ETL(Extract，Transform，Load)是一种数据集成工具，通常包括三个阶段:数据抽取、数据转换&清洗、数据装载。而传统ETL和ELT执行过程存在性能和功能上的弊端，不能很好地满足一些场景的应用需求。为此，需要研究一种高效的ETL数据集成方法。　　首先，为了解决数据集成过程中的数据虚拟化问题，本文提出了一种数据资源空间模型—EVP+(Effcetive，Virtual，Physical，Plus)。该模型包含三层，即:物理层、虚拟层、有效层，每层承载不同形态的数据资源。EVP+模型通过模式映射，完成物理资源到虚拟资源的转换;通过内容映射，完成虚拟资源到有效资源的转换。上层应用可通过统一的数据访问接口对多源异构数据进行访问，消除了数据资源的结构化差异。　　其次，针对传统ETL数据集成过程中存在数据中转区(Data Staging Area)的弊端，本文提出了一种新型的ETL数据集成方法—TEL。该方法基于EVP+模型，首先通过模式映射完成虚拟数据转换，然后再进行数据定制化抽取，最后加载数据到目标数据源中。此外，TEL方法具备实时数据查询能力，区别于传统ETL单一的数据抽取功能。该TEL数据集成方法减少了中间缓存区的时延，一定程度上可提高系统性能。　　再次，针对目前ETL重复抽取，数据冗余，查询效率低下的问题，本文提出了一种基于机器学习的数据复用方法—DSML(Data Sharing based on Machine Learning)。从系统日志中提取出反映用户查询习惯的特征值，利用机器学习的方法挖掘出关联信息，从而构建符合用户查询行为的预测模型。利用该模型，系统只缓存符合用户操作习惯的数据，避免数据的重复抽取，提高了数据的重用性，降低了系统的响应时间。　　最后，为了对TEL数据集成方法进行测评，本文针对不同的ETL应用场景提出了一种基准测试方法—TEL-Bench，包括TEL-Q、TEL-S、TEL-M、TEL-D四个执行过程。此外，本文定义了响应时间(Response Time)、执行效率(Execution Efficiency)、缓存需求量(Cache Size in Need)、总存取时间（Total Access Time）、缓存缺页率(Cache MissingRatio)五个性能度量指标，并依此对TEL系统进行了测评。

其他文献

基于混合专家网络的软件可靠性模型组合与选择

本文将混合专家网络应用于这个领域，利用其特点分别在模型组合和模型选择领域进行了一些探索性的研究。主要工作如下： 1．介绍混合专家网络的思想，描述其特点。并针对软件失效

学位

软件可靠性模型模型组合选择混合专家网络软划分

分布式虚拟环境中的XML路由技术研究

XML路由技术是一种实现于网络应用层的基于内容过滤的技术，其核心是XMI潞由算法．通过XML查询语言构造合适的过滤引擎，XML路由算法可以匹配持续到来的XML文件信息流．由于当前XML信

学位

虚拟网理论分布式虚拟环境XML路由技术算法理论

基于C/S模式的海量三维空间数据调度管理技术的研究与实现

随着二维GIS技术的不断成熟和完善，研究热点逐渐过渡到二维GIS以及其他的相关技术。目前国内外已经有不少3DGIS软件，但这些三维软件只能表达一些简单的三维现象，而对于三维模型

学位

3DGIS三维地理数据库三维矢量空间数据模型海量空间数据管理C/S模式

基于SAP R/3企业信息集成

SAP R/3 系统不但是一个成功的业务系统，而且还能根据存放在SAP R/3系统中的宝贵的业务数据提供高级的决策支持。随着 SAP R/3系统在众多企业中的广泛成功的应用，管理者将SAP应

学位

现代企业信息化管理模块集成

高可用自适应负载均衡集群的研究与实现

随着计算机和互联网技术的迅速发展和成熟，越来越多的企业开始进入了互联网商业模式的时代。通过部署互联网商业解决方案，能够全方位的为企业降低成本、提高客户满意度、改善业

学位

高可用集群高可用集群自适应负载均衡自适应负载均衡Linux-HALinux-HANetfilterNetfilterTCP迁移TCP迁移互联网商业模式

手绘草图参数化及其应用技术研究

手绘草图以其方便，自然的表达方式，日益成为人机交互领域中的一个研究热点，但是其存在表示形式复杂，数据量大等问题。手绘草图参数化能够极大的减少手绘草图的数据量，使得手绘草图

学位

手绘草图草图参数化笔划分割手写签名认证Bezier曲线

说话人语音特征提取及说话人识别研究

语音中蕴含着丰富的说话人特征信息。说话人识别就是从语音中提取出这些个性特征并使用一定的识别方法识别出语音的说话人。随着信息技术尤其是语音通信技术的发展，说话人识别

学位

说话人识别语音特征提取语音信号处理

BPEL引擎事务处理框架的设计与实现

WS-BPEL(Web Service Business Process Execution Language)是Web服务规范族中服务复合层的重要标准。WS-BPEL支持通过对Web服务的编制(Orchestration)来建模业务流程，从而使

学位

Web服

机群通信系统性能优化技术研究

由于性能价格比高、可扩展性和可用性好等特点,机群系统已成为现代超级计算机和超级服务器的主流并行体系结构.和其它并行体系结构相比,机群系统的主要性能瓶颈在于结点间的

学位

机群系统机群通信系统虚实地址转换并行通信技术通信延迟隐藏

高速网络流量监测技术研究

随着网络技术的发展和网络规模的日益扩大,人类对互联网的依赖程度日益增强,而网络性能和网络安全一直是困扰网络研究和管理的主要问题.网络流量监测通过网络流量测量获取网

学位

网络管理网络流量监测淘汰机制异常检测

基于数据虚拟化的数据集成方法研究

与本文相关的学术论文