XML数据库通信行业的新领域

来源 :科学时代 | 被引量 : 0次 | 上传用户:fliedpig
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要] 关于XML是一种专门为因特网所设计的标记语言,随着XML的应用,XML已是表示因特网数据和数据交换的标准,但怎样有效地管理大量的XMI数据显得尤为重要。目前使用数据库技术对XML进行管理已成为一种必然的发展趋势。XML和数据库的链接已成为一个新的研究领域,目前正处于发展的趋势。本文作者探讨和分析了有关知识,介绍了Native XML数据库及一个NXD系统exist,今后XML数据库将成为通信的一个新的研究领域。
  [关键词] XML NativeXML EXIST
  
  引 言:
  如今Web技术的不断发展,使得信息共享和数据交换的范围也不断增大,对于传统的关系数据库也是个不小的挑战。数据库技术的应用是建立在数据库管理系统基础上的,各数据库管理系统之间的异构性及其所依赖操作系统的异构性,严重限制了信息共享和数据交换范围。同时,XML已经成为数据表示和交换的标准,伴随着各种XML应用的快速发展,XMI数据大量出现,以数据库方式实现XML数据的有效管理和快速查询已经成为趋势。
  1 XML类型
  当今XML数据库是数据库领域的一个新的研究方向。在今后,XML数据库基本上可以分为三种类型:XML EnabledDatabase,即支持XML的数据库;Native XMLDatabase,即纯XML数据库(或者原生XML数据库);Hybrid XML Database,即混合XML数据库。
  1.1 XML Enabled Database
  XML Enabled Database(XEDB),即支持XML的数据库。其特点是:不考虑底层数据的存储模式,只要能存入和取出XML数据,并符合数据库的基本特性。也就是说在原有的数据库系统上扩充对Ⅺ儿数据的处理功能,使之能适应XML数据存储和查询的需要,如Oracle Oracle9i,IBM DB2,MS SOL Server2005等。XML的半结构化特性并不符合传统的关系模块的结构化特性,强制转换会造成数据信息的丢失和系统性能的减弱。这样的数据库可能使原始的XML元数据和结构丢失,而且数据检索的结果也不能保证是原始的XML形式。XEDB把XML数据存在关系表中,在访问相应的表之前,XML数据模式必须被翻译为关系模式,同样地,XML查询语言也必须翻译为SQL语言以访问这些表,这些翻译操作可能会消耗大量的CPU资源,造成系统性能降低。
  1.2 Native XML Database(NXD)
  Native XML Database(NXD),即纯XML数据库(或者原生XML数据库)。纯XML数据库直接存储XML 数据,数据库引擎在访问XML数据时不需要执行任何转换工作。这是支持XML的数据库和纯XML数据库之间的主要差别。其特点是:以XML文档作为基本的逻辑存储单位,针对XML的数据存储和查询特点专门设计适用的数据模型和处理方法。
  1.3 Hybrid XML Database(HXD)
  Hybrid XML Database(HXD)。即混合XML数据库。根据应用的需求,可以视其为XEDB或NXD的数据库,典型的例子是Ozone。
  2 Native XML Database(NXD)的研究
  在XML数据库中,纯XML数据库相对其他的数据库更具有发展的趋势,虽然现在的纯XML数据库技术相对当前流行的关系数据库(或对象数据库)还不是很成熟,但随着Intenet信息的大量交互,纯XML数据库以其独有优势一定会超越现行的数据库。这就使得研究纯XML数据库显得更加有意义。
  2.1 纯XML数据库的基本概念
  关于Native XML数据库目前还没有一致公认的定义,Staken KC加对其作了一个说明,学术界比较认同,介绍如下:(1) Native XML数据库为XML文档(而不是文档中的数据)定义了一个逻辑模型,并且根据该模型存取文档。模型包括元素、属性、PCDATA和文件的次序。目前已经采用的模型有XPath数据模型、XML-Infoset、DOM模型和SAX事件模型等。(2)Native XML数据库以XML文档作为其基本(逻辑)存储单元,正如关系数据库以表中的行作为基本逻辑存储单位一样。(3)Native XML数据库对底层的物理存储模型没有特殊要求,即它不一定必须建立在关系、层次或面向对象的数据库基础上,也不一定必须规定存储格式,如索引或文件压缩。
  从以上描述中得出,纯XML数据库是专门用于存储文档并且保持其完整性,存储XML均以文档为基本单位。纯XML数据库不是一种全新的数据库底层处理模式,它不是用于取代现存的数据库,它仅仅用于帮助人们更好地处理XML文档。
  根据XML数据不同的存储形式,可以将纯XML数据库体系结构分为:基于文本的NXD和基于模型的NXD。这两者在数据存储层之上的部分没有本质的区别,主要区别在于基于文本的NXD将XML文件视为一种文本,强调文本之间的层次关系;基于模型的NXD将XML文件视为一种数据模型,强调数据之间的逻辑结构。
  基于文本的Native XML数据库将整个XML文档作为文本存储,文档可以是文件系统中的文件、关系数据库中的BLOB字段或其他特定的文件格式。基于文本的Native XML数据库与层次模型的数据库很相似,当存取预定义好层次的数据时,其效率胜过关系数据库,而存取任意数据元素的组合时,其效率不理想。基于模型的Native XML数据库根据XML文档构造一个内部模型并存储这个模型。有些数据库将该模型存储在关系型或面向对象数据库中,也有的采用专为模型作了优化的存储方式,如果按照数据存储的顺序读取文件,则定义了物理存储格式的基于模型的NXD可能有相似于基于文本的数据库的效率。基于文本的系统明显地在返回结果为文本时比较快,而基于模型的系统多数情况在传回的结果DOM较快。
  2.2 纯XML数据库的研究方向
  存储大量XML数据,高效的查询能力对NXD是非常重要的。NXD的查询技术还处于起步阶段,目前的NXD查询的一个重要的特点是它的查询语言的设计与它的数据模型是紧密相关的,实际上每一种XML数据模型都隐式地决定了查询语言的结构和语义描述。XML查询语言,如XPath和XQuery都是将路径表达式作为核心内容。这种方法简单直接,但执行效率不能得到保证,尤其是在大数据量的情况下。对于XML数据的更新操作,无论在语言还是在操作方法上目前都没有一个统一的标准。更新操作从逻辑上是指元素的插入、删除和更新。关于XML数据的更新语言,W3C目前还没有这方面的工作计划,XQuery中也没有更新XML数据的描述,但民间团体XML则给出了更新语言XUpdate的规范,但这是不是能被W3C所接受,目前还不清楚,因此XML数据更新也是一个重要的研究方向。
  3数据库系统eXist
  当前已经出现了不少的Native XML数据库产品,如dbXml(它能够索引和存储XML文档集合)、eXist(它有依据索引的XQuery处理程序,可以自动进行索引,扩展的全文本搜索,XUpdate支持并且它与现存的XML开发工具可以紧密地结合在一起)、OrientX(NativeXML数据库管理系统,以Native方式存储XML数据,保留XML数据的树状模型,并支持XPath和XQuery等XML查询以读取数据)等。下面简单介绍一下eXist系统。eXist是一个开放源码的Native XML数据库系统,它与现在流行的XML开发工具(比如Apache的Cocoon系统)紧密结合。eXist覆盖了一个Native XML数据库应该具有的大多数基本功能,而且提供了其他一些先进的技术,比如对文本进行关键词检索,模糊查询和基于规则表达式的检索模式。它是一个轻量级的,完全用Java语言实现的,容易部署的数据库系统。eXist提供了可插拔的存储后端,可以把文档存储在内部的XML数据库或外部的关系数据库系统(如MySQL)中,但eXist本身的设计目标是一个纯XML数据库系统。eXist具有以下几点特性:1)无模式的XML数据存储2)数据集合3)基于索引的查询处理4)用于全文检索扩展.
  4 结束语
  XML数据库是当前研究的热点。文中结合XML技术和数据库技术探讨了XML数据库成为发展趋势的必然性,简单介绍了三种类型的XML数据库,并分析它们之间的特点,最后简单介绍了eXist系统。
其他文献
我们身边似乎总有一类人,体质比较弱,三天两头生病,其实这除了父母遗传的先天体质外,还有心理原因。美国《预防》杂志总结了以下这9种人,看看你身边有没有这样的朋友,如有,就
关于接触铅作业工人的血铅、尿铅等指标的意义报道较多,但对头发含铅量的研究较少。近十几年来对头发所含的金属成分如锌、砷、镉、汞等的测定作为接触该物质的指标陆续有些
苯的胺基硝基化合物是化工、制药、橡胶和国防工业上常用的原料。在常温下容易挥发,其液态和气态经消化道、呼吸道和皮肤吸收可引起中毒。急性中毒病例国内已有报告,现将我
水泥行业从上市公司来看,198年水泥板块的净资产收益率达到1002%,高于建材行业平均净资产收益率。年终业绩相差很大,最高的牡丹江水泥达20.67%,最低的天鹅股份只有0.18%。每股收益最高的为新疆屯河
人上了年纪,不仅肌肉骨骼衰老,神经系统也退化,所以上下楼很容易发生意外。老人体质较差,肌肉及韧带的弹性不如青壮年时期,稍有状况就难以控制。老年人在上下楼时,要掌握一定
5月18日,枣庄煤矿第三届鸟展在矿广场揭幕。一大早,养鸟爱好者就肩挑手提心爱的鸟儿,从四面八方会集展区。这次鸟展规定,每人只限报一只画眉和一只百灵,组委会将从参赛鸟中
有关矽肺患者心电图的资料,国内曾有过报告,但为数甚少。为了贯彻执行毛主席的革命卫生路线,认真做好矽肺病的防治工作,我们自1973年10月至1974年4月,对经过省、市矽肺诊断
本书是日本上海史研究会作为共同研究成果而刊行的论文集,该研究会长期以来研究及出版活动非常活跃。在这里,国内外不同风格的执笔者描写了古厩忠夫提出的“殖民上海”这一上
疫情背景下,教学不是“被迫”在线,而是一场基于信息技术、从“以教为中心”向“以学为中心”转移、旨在“让学习有效发生”的教学.结合校本实际,从开展在线教学的指导思想及