基于XML的数据库统一的研究

来源 :硅谷 | 被引量 : 0次 | 上传用户:lansekafei4271
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要]讨论如何利用关系数据库存储XML数据和文档,如何利用关系毅据库直接支持XML毅据查询,最终建立一个基于XML的、统一的Internet数据库平台的方案。XML存储管理和XML搜索引擎是实现XED的核心问题。
  [关键词]XML 数据库 存储管理 搜索引擎
  中图分类号:G2 文献标识码:A 文章编号:16717597(2008)0610046-01
  
  一、综述
  
  XML被称作是Internet上的世界语。XML技术的诞生就是为了统一不同格式的数据,实现不同系统之间的信息共享,增加系统价值。基于XML技术,还衍生出很多新的技术,如Web Service。和XML数据库等。基于以上原因,XML数据库自然成为一个研究热点。目前对XML数据库的研究主要有两种思路:一是研究纯XML数据库,称作NDX;二是依托于关系数据库来实现XML数据库的功能,称作XED.
  XML数据库的典型应用包括以下六种:
  数据交换:用XML统一表示来自不同数据源的数据,实现系统间的数据交换,实现信息共享。
  Web应用和服务:用XML表述数据内容,通过XSLT将其转换成任何表现形式(HTMLPDF/Word等)。
  信息集成:对遗留系统的整合集成是企业面临的一大难题。通过XML统一表示数据,完成对不同系统的信息集成。
  内容管理:内容管理会涉及大量的半结构徘结构化数据,处理结构化数据的关系型数据库处理这类数据就显得束手无策。
  电子商务:电子商务平台要完成和企业现有系统互联、不同交易方的数据交换,实际上是对以上应用的综合。国内外关于电子商务的XML标准包括ebXML,cnXML等。
  电子政务:电子政务急迫要解决的问题是如何将各政府部门现有分离的系统互连起来,解决信息孤岛问题。
  如何有效的解决“孤岛”问题使电子政务系统上的数据畅通无阻则是需要优先解决的问题。
  
  二、XML数据库要解决的基本问题
  
  Internet上的数据库各种各样,并且大部分都是关系数据库,由于数据库是异构的,所以给数据交换带来很多困难,而XML技术的诞生就是为了统一不同格式的数据,实现不同系统之间的信息共享,增加系统价值。那么随之而来的问题是大量新产生的XML数据和文档如何管理,又如何查询。答案当然是建立XML数据库。
  如何利用关系数据库存储XML数据和文档,如何利用关系数据库直接支持XML数据查询,最终建立一个基于XML的、统一的Internet数据库平台是数据库研究者和数据库厂商这几年致力于研究的问题。
  XML数据库的内部存储模型应该与XML文件层次模型一致,存取XML文件时,无需将其拆散重组,这样才更加灵活高效。同时还要具有事务管理、安全、多用户访问、编程API和查询语言等传统数据库技术,还要支持W3C关于XML技术的最新标准。
  一般XMI‘数据库研究的具体内容包括以下几个方面:XML数据的存储技术,XML数据的索引技术,XML数据的解析和内容管理技术,基于XML的数据交互和数据集成技术及XML数据的查询和发布技术。
  一般基于关系数据库的XML数据存储,在文档存入到数据库时需要将其拆解,取出时需要重新组装,这样做不仅耗时,文档的格式可能会发生改变,并且不能完全支持XML的特征。能否在XML数据的特征提取、数据分类、索引技术、查询技术和存储技术等方面做出新的研究和尝试,实现基于关系数据库的真正的XML数据存取和内容管理,是要解决的基本问题。
  
  三、研究的思路和方法
  
  XML数据库的研究方法主要分为两大类:一是研究纯XML数据库,称作NDX;二是基于现有的关系数据库来实现XML数据库的功能,称作XED。我们讨论第二种方案,这也是目前学术界比较认同的技术方案。
  目前国内外关于XED的研究主要采取的方法是将XML文档映射到关系,这样做的结果是在XML文档存人到数据库时需要将其拆解,取出时需要重新组装,从而对XML的支持打了折扣,效率也比较低。我们提出虚拟数据库的方案,前台呈现在用户面前的是RDB+NDB,后台是RDB支持的XED。特别是后台实现的XED,不将XML文档映射到关系,直接实现XML文档的内容管理,从而可以获得关系数据库和XML数据库的全部特征和支持。
  其中XML存储管理是实现XED的难点。对XML文档抽取的特征、规则等存储在关系数据库中,而对XML文档本身的存储则需要研究特殊的存储技术。例如可以借鉴一般数据库大对象的存储技术,建立操作系统一级的文件,使这些文件属于特定的数据集,并用特殊的ID来标志,在文件上进行适当的逻辑分块和物理分块。
  XML存储管理要支持不同的存储策略。既要适应有模式的数据,也要适应无模式的数据。根据记录的粒度不同,存储策略可以分为基于节点的和基于子树的。如果没有模式信息,可以将记录按它在文档树的后序遍历存储;如果有模式信息,可以利用模式信息把同类记录聚簇存储,或者把它们映射到关系。
  和XML存储管理相关的一个重要问题是模式管理。由于XML数据具有自描述特性,所以一般XML模式信息需要从XriI.数据中提取。虽然XML数据与模式信息之间并不具有完全对应的关系,XML模式信息不真正具有约束数据的功能,但是模式信息是查询和了解数据的重要依据,所以模式信息对实现XML文档的存储、管理和查询有着重要意义。
  索引的生成和管理是XML存储管理的另一个重要问题。主题、内容和模式都与索引有关,中在实际应用中经常存在的XML数据的模式信息一DTD (Document Type Definition)是建索引的一个重要基础,从DTD出发构建索引,提取符合DTD的XML数据可能出现的路径结构。
  
  四、小结
  
  XML数据库的研究已经有几年的历史,但是针对我们国内的很多应用(如电子政务),基于关系数据库的XML数据库的研究还有很多工作要做。如何真正的把关系数据库和XML数据管理融为一体,为用户提供一个统一的Internet数据库环境,我们尚有很多深人、细致的工作要完成。
  
  参考文献:
  [1]htp://www-900.ibm.com/developcrWorks/cn/xml.
  [2]Storing Querying XML Documents Using a Path Table inRelational Databases. Http://springerlink.metapress.com/app/home/cont
  ribution.asp.
  [3]http://msdn.microsoft.com/xml.
  [4]http://www.ipedo.com.cn.
其他文献
[摘要]数据集成关注解决异构信息资源的共享问题,致力于将一个一个信息孤岛连接起来。基于RDF技术的数据集成,解决传统数据集成方法不能解决的复杂数据的问题。解决的方法被抽象成三层的逻辑结构,这三层逻辑结构可以集成包括文本格式的数据源、XML格式数据源、html格式数据源以及其它类型的数据库等。  [关键词]全局模式 中间模式 本地模式 RDF 数据集成  中图分类号:TP3 文献标识码:A 文章编号
期刊
中图分类号:C93 文献标识码:A 文章编号:1671-7597(2008)0710169-01  CFO即企业首席执行官。在上世纪80年代初,只有美国的少数跨国公司设立CFO。随着公司经营环境的变化和信息技术的进步,在资本市场充分发达的国家,CFO已广泛的活动于战略规划、业绩管理、企业并购、团队建设等领域,他们作为CEO(企业首席执行官)的助手和伙伴参与决策,对公司的发展起着举足轻重的作用。随着
期刊
[摘要]针对各级公共图书馆自动化建设底子薄、基础差、起点低、资金少、专业人员匮乏的现状,提出建设区域图书馆集群管理系统。  [关键词]公共图书馆 集群管理 Interlib   中图分类号:G250.71文献标识码:A 文章编号:1671-7597(2008)0710175-02    一、背景    《贵州省“十一五”文化建设专项规划》提出,要加强公共文化基础设施建设。到2010年,完成“县县有
期刊
[摘要]防沉迷系统针对网络游戏沉迷退出,社会对其期望值很高。但实际中的运行状况并不是如此,其具有漏洞。本分结合实践案例分析,并提出完善建议。  [关键词]防沉迷系统 漏洞 网络游戏  中图分类号:G44文献标识码:A 文章编号:1671-7597(2008)0710196-01  “您已进入不健康游戏时间,请您立即下线休息。如不下线,您的身体健康将受到损害,您的收益已降为零。”看着屏幕上的提示信息
期刊
[摘要]可编程控制器(PLC) 是计算机技术在工业控制领域的一种应用技术,具有体积小、组装维护方便、编程简单、可靠性高、抗干扰能力强等特点。介绍一种专为学校或企业集体宿舍公共使用设计,用PLC控制,以“一键式”操控的多模式全自动洗衣机控制系统。  [关键词]PLC “一键式” 步进梯形图  中图分类号:TP2 文献标识码:A 文章编号:1671-7597(2008)0610019-01    一、
期刊
[摘要]做为新兴的显示技术,OLED具备其它显示方式所没有的特点,对其的研究将是本世纪的重点,我国作为其显示设备产业进程最快的国家之一,加大关注很重要。  [关键词]OLED 结构 原理  中图分类号:TN7 文献标识码:A 文章编号:1671-7597(2008)0610022-01    一、OLED结构及原理    (一)高效OLED的典型结构  如图所示,在透明电极ITO薄膜,阳极)上,由
期刊
[摘要]ADAM模块是一种传感器到计算机的智能接口模块,具备系统接线简单、成本低廉、扩展方便等诸多优点,可通过RS-485总线连接至计算机进行远程监控,解决现场特殊作业环境参数监测问题。主要介绍一种基于ADAM数据采集模块的环境监测系统,详细介绍其工作原理、硬件系统组成、软件设计等方面的内容。  [关键词]ADAM模块 数据采集 环境监测  中图分类号:X8 文献标识码:A 文章编号:1671-7
期刊
[摘要]通过UG/Open GRIP 和UG/OpenAPI编程,用截面扫掠和网格曲面两种方法,实现了大客车车身骨架中曲线型钢构件的快速三维实体建模,有利于提高建模效率,亦可供其他曲线型钢骨架结构的快速三维建模参考。  [关键词]大客车 车身骨架 三维建模 UG编程  中图分类号: U543.82+2 文献标识码:A 文章编号:1671-7597(2008)0610033-02    一、引言  
期刊
[摘要]现在CPU处理器的发展真可谓日新月异,着重介绍中国的龙芯及国际的双核技术,并介绍其未来的发展趋势,在此基础上提出了一些新的看法。  [关键词]CPU 网络 双核技术  中图分类号: TP3文献标识码:A 文章编号:1671-7597(2008)0610047-01    一、引言    随着网络时代的到来,网络通信、信息安全和信息家电产品将越来越普及,而CPU正是所有这些信息产品中必不可少
期刊
[摘要]媒介不仅有力地推动了全球化,它本身也是全球化的组成部分。在这种全球传媒文化趋同的趋势下,本土文化开始追求新的生存模式。立足于在传播政治经济学中全球化的表现与影响和本土文化存在的重要意义,来考察当前中国媒介产品的现实状态媒介全球化与本土文化的杂糅产物,并试图去探询本土媒介产品在国际传播中新的出路。  [关键词]媒介全球化 本土文化 媒介产品  中图分类号:G2 文献标识码:A 文章编号:16
期刊