数据仓库的自动ETL研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:dgjjtjn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据仓库的建设是为了能支持决策分析。数据质量是数据仓库项目的生命线所在,也关系到数据分析、数据挖掘的质量。在进行决策分析或数据挖掘时,需要全面、正确地集成数据,这些集成的数据不仅包含企业内部各部门的有关数据,而且还要包含企业外部、甚至竞争对手的相关数据。数据仓库的数据集成是解决海量的、异构、多源的、分布式数据集成问题。解决这一问题,ETL(数据抽取、转换、装载)则是主要的一个技术。本文中我们研究了数据仓库的ETL技术。目的是为了提高数据集成的质量,丰富数据挖掘及数据分析。提出了基于语义元数据自动转换的思想和算法,建立了语义元数据模型,提出元数据语义化的规则。首先,根据数据多源的、异构的、分布式存储的特点,建立标准化、规范化的数据接口,以利于数据的集成。通过对源数据进行标准化、规范化处理,构建数据仓库,实现信息的可视化和深度应用;使主动拉取过来的数据是“可读”的。在这一层对异构问题进行削弱;其次,开发了多线程的抽取、校验守护程序。实现主动从外部“拉取”,而不是从内部“推送”。系统获取需处理文件列表后,会启动多个线程对需处理文件依次处理,相应地对数据文件进行抽取及校验的处理;第三,提出了将元数据语义化的思想和方法,不断完善语义元数据模型。第四,提出了基于语义元数据的自动转换的思想和算法。基于本体论思想,面向数据仓库应用,并借鉴本体在AI等信息系统领域的成功经验来研究基于语义元数据的数据转换,提高数据集成的质量,对获取规范、可靠的知识也有着重要的理论意义和实用价值。最后,我们根据电信领域数据仓库的建设,建立了数据仓库的原型系统,将客户资料用于基于语义元数据的自动转换,实践证明语义元数据应用于转换是切实有效可行的。并且对研究在线的、探测式的数据挖掘,提供更加灵活、准确的数据准备。丰富数据挖掘功能。
其他文献
随着我国经济的发展,信息技术得到广泛应用,网络与信息系统的作用进一步增强,成为国家的关键基础设施。与此同时,信息安全问题日益增加、日渐突出。作为网络分布式计算环境中
医疗保险制度改革是一项复杂的系统工程,政策性强、涉及人员范围广,在各项保险改革中最为复杂。目前在医疗保险制度实施的过程中存在一些问题,其中医疗保险费用支出增长过快的问
网络的发展带来了现代远程教育的迅速发展。现代远程教育以网络教育为主,它以互联网为依托,采用计算机多媒体技术,这使其具有“双向交互性、个性化学习、反馈迅速、移动性”的特
作为分布环境中网络异构问题的解决方案,中间件备受关注。中间件开发中一个重要的问题就是网络通讯服务的设计与开发——任何一种中间件都必须依赖通讯服务来完成其自身各部
本文对基于离散元法的精密排种器分析设计软件开发进行了研究。文章在对国内外该方面的研究现状及存在问题进行分析的基础上,提出了由CAD模型建立其离散元法分析模型的方法,并
本文围绕邻接特征的选择、表示和使用进行相关研究,提出了基于邻接特征的网页主题传播算法。该算法基于网页超链接构建的有向图模型,针对网页的主题局部性特点,实现了邻接网
射频识别技术(RFID)被广泛应用于工业自动化、商业自动化、交通运输控制管理等众多领域,具有广阔的市场前景。  本文首先介绍了RFID技术的基本原理及其相关理论;然后重点分
随着计算机网络技术的不断普及和发展,网络的安全性也被越来越多的被人们所广泛关注。目前,网络安全问题,已变成了新的研究热点。网络安全的主要目的是保证网络上存储和传输的信
随着基于网络的计算机系统在现代社会中扮演着越来越重要的作用,这些系统也成为了黑客入侵的目标。除传统的入侵防护技术如用户授权与认证、加密外,入侵检测也是保护计算机系统
近年来,随着网络安全问题日益突出,单点登录研究领域得到了越来越多的关注。许多企业和组织都对它进行了大量的研究,并推出了自己的解决方案和产品。但由于缺乏统一的标准,各种单