论文部分内容阅读
随着计算机网络的普及和网络上数据信息的迅猛增加,数据资源的共享已经成为一个必然的需要,而异构数据源集成系统的作用是提供一个访问异构数据源的统一查询应用平台,使开发人员不必考虑数据模型的异构性、数据抽取、数据合成等问题而获得需要的数据信息。异构数据集成问题是数据库领域的经典问题,现在随着XML技术的兴起,异构数据集成再次成为了研究的热点。 XML作为一种数据描述的元语言标准,不断地被应用到各种不同领域的数据集成中去。XML的自描述性、开放性、可扩展性及平台无关性成为其作为数据模型描述语言的优势。 本文研究了异构数据集成的相关理论和技术,结合XML技术的优势,在已有集成系统技术成果的基础上,设计了一个基于XML的异构数据集成系统,即HDSISBX(Heterogeneous Data Sources Integration System Based on XML)的原型,并对其中的关键技术进行研究。主要工作如下: 1.在分析比较已有数据集成方法和体系结构特征的基础上,针对以往一些集成系统体系结构的不足,结合领域数据的特点在已有体系上进行改进,设计了一种基于XML的异构数据集成系统原型的体系结构,并给出各模块的实现策略,实现了其中的关键模块。 2.对关键技术的研究 1)主模式提取:结合XML作为数据模型描述语言的优势,给出一种基于XML schema的数据模型——XSDM(XML Schema-based Data Model)作为公共的数据模型以统一描述各数据源模式。主模式提取在统一描述各数据源模式的基础上,从各数据源中将刻画各应用主题业务的关键模式信息提取出来,建立一个由各应用主题关键模式元素组成的主模式集,该模式集综合了整个领域应用的模式信息,提供给用户作为查询领域异构数据的统一“视图”。本文分析了主模式提取过程的主要步骤,给出了主模式的构造算法,并借鉴全局模式增量维护的思想给出了主模式的维护策略。 2)查询处理:形式化描述了数据源查询执行能力,分析了基于数据源查询执行能力的查询分解过程,给出了相应算法。