基于XML数据源的ETL技术的研究

来源 :沈阳航空工业学院 沈阳航空航天大学 | 被引量 : 3次 | 上传用户:outong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
经过长期的信息化建设,使企业和组织内部产生了大量遗留系统,这些系统在实施过程中缺乏系统性、一致性考虑,因而产生了大量异构信息。这些信息无法进行有效的共享和交换,导致以XML为基础的信息集成平台成为信息技术发展的一种必然趋势。信息集成过程中,数据质量难以保证,导致分析决策的可靠性降低,使得ETL(数据抽取、转换、清洗、装载)成为一个十分重要的环节,它将源系统中的数据转换为有用的信息用于决策支持。因此,以XML为基础的ETL技术的研究尤为重要。本文主要的研究工作可概况为以下几个方面:第一,在分析XML、CWM与信息集成相融合的优势基础上,提出了一种利用公共仓库元模型CWM解决信息集成中数据抽取的方案,构建了一个基于公共仓库元模型CWM的结构化数据信息集成架构,设计了一个公共的、独立于任何特定实现模型的元模型基础上的Wrapper,解决了结构化数据抽取过程中由于数据源发生变化引起的Wrapper维护问题。第二,在分析现有XML数据相似性检测技术基础上,提出了一种节点加权与树编辑距离相结合的检测方法,该方法通过计算XML带权树的相似度来对数据进行粗略匹配、简单聚集,然后在每个集合中利用树编辑距离算法进行相似性检测。由于对XML数据进行了预处理,减少了不必要的树编辑操作,因而时间复杂度大大降低。第三,为了将理论应用于实践,在一个应用实例中进行实验模拟。构建了特种设备整合系统的体系结构,设计了信息集成过程中数据抽取的元数据统一格式,并抽取出所需要的XML数据。另外,为了验证本文的相似重复记录检测方法,针对不同的DTD从底层数据库表中抽取XML数据,并对其进行相似重复检测,验证了本文提出的相关技术。
其他文献
入侵检测技术能够同时检测来自系统外部和内部的攻击,并对检测到的入侵行为作出响应。随着网络技术的发展和网络带宽的迅速增长,入侵检测系统的处理速度由于无法与高速网络带
随着各种医学影像设备的大量涌现,医学图像成为现代临床诊断和医学研究中不可或缺的工具。面对这些海量的医学图像数据,如何有效地组织、管理和检索大规模的医学图像数据,已
随着互联网规模逐渐扩大,域间路由安全问题日益加剧。近年来国内外已经发生多起路由安全事件,对整个互联网也造成很大影响。BGP作为互联网的核心路由协议,其本身却缺乏有效的
作为自然语言处理的基本操作,词性标注能提供关于单词及其邻近成分的大量有用信息,因此常常是组成复杂应用的模块之一。词性标注任务是文本理解、文本生成等自然语言处理领域
随着Linux操作系统应用范围不断扩大,其所面临的安全威胁也不断增多,而其中非常重要的一种威胁就是提权攻击。攻击者一旦利用系统中应用程序或内核中存在的提权漏洞成功将用
随着Internet的快速发展,Web上的信息量越来越大,为了帮助人们在浩如烟海的互联网中查找信息,搜索引擎应运而生并得到了快速发展。然而,由于人们对信息的需求越来越专业化、
近年来,医疗仪器技术发展非常迅速,在人类的健康检测,疾病辅助诊治方面发挥了重要的作用。特别是医疗B超,因其无创伤,无痛苦,无辐射等诸多优点,被广泛应用于医疗诊断。本文针对当前B
随着在线社交网络的高速发展,社交网络平台(如Twitter,Facebook.人人网,微博等)近几年迎来了爆炸式增长,社交网络已经深入到人们日常生活中的方方面面。人们在社交网络上与人
互联网的不断发展使其面临着越来越多的网络安全威胁,如何实时准确地检测复杂网络威胁行为是当前亟需解决的关键技术问题。基于警报关联的网络威胁行为检测技术因其与网络上大
随着信息技术的发展,人们需要对大量的文本资源进行有效的组织,以利于主题发现、信息检索等。于是,文本聚类技术应运而生,它是自然语言处理领域的重要课题。文本聚类技术的研