论文部分内容阅读
长期以来,IT业界一直在寻求新型数据库系统以弥补经典的关系数据库在管理非结构化数据方面的不足。Internet的异军突起以及XML语言的出现,给数据库系统的发展开辟了一片新的天地。原生XML数据库系统概念的问世,标志着数据库系统进入了新的一个的发展时期。
关于XML技术
20世纪70年代,数据库系统的发展进入了“关系型数据库系统(relational database)”时期。随着信息技术和市场的发展,人们发现关系型数据库系统虽然技术很成熟,但其局限性也是显而易见的:它能很好地处理所谓的“表格型数据”,却对技术界出现的越来越多的复杂类型的数据无能为力。九十年代以后,数据库业界一直在研究和寻求所谓的“后关系型数据库系统(post-relational database)”。XML技术的诞生就是为了统一不同格式的数据,实现不同系统之间的信息共享,增加系统价值。
XML是一种标记语言,以文本为基础,具有易读性和平台无关性,它以其结构化、可扩展性及灵活性的特点引起了业界的普遍关注。XML技术的诞生就是为了统一不同格式的数据,实现不同系统之间的信息共享,增加系统价值。XML是处理非结构化数据和半结构化数据的桥梁。由于XML是一种可自我描述定义的元语言,所以它将大量用于制定行业内及行业间数据交换的标准。围绕着XML已经形成了一大批新的技术及标准。工业界也在加紧制定自己行业的XML标准。目前,XML 数据已被广泛地用于实际应用。在企业内部,80%的信息都是除结构化数据以外的文档、邮件、音频视频等类型的非结构化数据,而这些数据的管理用XML形式描述是最好的。更多的例子包括办公文档(DOC, XLS),网页(HTML),PDF,图像(JPG, GIF),音频(MP3),视频(MPG, AVI),文本等主流非结构化数据。可以预见,在以互联网为基础的企业及商务应用中,XML数据将呈爆炸性地递增。
XML数据库的优势
江苏倍多科技前身Ipedo成立于美国硅谷,是原生XML数据库行业奠基者及标杆企业,同时也是行业标准的发起人之一。目前,江苏倍多的XML数据库已是相对成熟的产品,并在国内国外有大规模应用的客户,如英国电信,法国电信,美国海军,惠普,路透社,北京地税局,江苏电科院等。从产品的成熟化角度,江苏倍多的XML数据库同IBM和甲骨文等企业站在同一条起跑线上,而从产品的性能上则具有一定优势。
大量资料和数字显示XML数据库的应用已经成为数据库产业新一轮的热点。业界最大的企业软件公司,如:IBM,甲骨文和泰瑞数据都已正式推出各自的XML数据库解决方 案。电子病历,电子商务和信息整合市场都将给该市场带来数以万亿的市场机会。
相对IBM和甲骨文的以关系数据库起家的企业相比,XML数据库有天生的性能方面的优势。IBM和甲骨文是在原有关系数据库基础上扩展了XML支持模块,完成XML数据和数据库之间的格式转换和传输。即把XML数据本身的树形结构转换成关系模型中的二维表结构,从存储粒度上,可以把整个XML文档作为RDBMS表中一行,或把XML文档进行解析后,存储到相应的表格中。为了支持W3C的一些XML操作标准,如XPath,XED提供一些新的原语(如Oracle9iR2开始增加了一些数据包来操作XML数据等),并优化了XML处理模块。将XML树状结构翻译成关系二维表,再从二维表翻译回树状结构,会造成性能方面的很大问题。
XML数据的实现方式是原生态XML结构,即从底层就支持树状结构,采用层次数据存储模型,保持XML文档的树形结构,省掉了XML文档和传统数据库的数据转换过程。原生态XML数据结构是专门为存储XML文档设计,也兼有一般数据库的特性,例如支持事务,并发控制,查询语言,安全机制,二次开发接口等。唯一的不同之处在于其内部存储模型是基于XML文档树形结构,而非关系模型。 下图可以明确地反映出两种实现方式的根本区别。
在XML数据库行业组织的XML数据库基准程序XMark的测试中,倍多的产品性能明显胜出。而在最近国防某个项目的测试中,XML数据库与甲骨文同台比测,结果表明,XML数据库在若干重要指标上有明显优势,尤其是在优化和查询方面,一扫国内数据库在高性能和稳定性方面普遍存在的颓气。下图表明了XMark测试的结果。
前景美好 道路曲折
近年来我国发布的电子政务标准和文档标准,如UOF,UOML等,均基于XML。我国的证券交易市场(如上海证券交易所)已开始采用基于XML的财务报表标准XBRL。而最近才发布的电子病历标准征求意见稿及健康档案标准更是为XML的应用提供了一个广阔的前景。要把XML数据库产业做大,任何公司都知道离不开中国市场。中国有13亿人,单“全民健康档案”一个项目就足以撑起整个产业。
但是,就目前而言,甲骨文、微软、IBM、Sybase等巨头在中国数据库市场上继续占据着97%以上的绝对垄断份额,这一形势没有大的改变。长期垄断导致许多重点用户依附于国外产品,不易接受新的替代品,这反过来促进了垄断趋于极端。后来者面临的市场进入壁垒越来越高,是国产数据库面临的主要困难之一。
此外,国内用户使用盗版数据库的情况十分普遍,不亚于操作系统和办公软件,而且更为隐蔽;加上近年来国际开放源码产品的兴起也为国内用户提供了更多的选择,MySQL、PostGreSQL等提供了比较完整的数据库功能,能够满足大多数中低端应用需要,这些很大程度上削弱了国产数据库的价格优势。
因此说,国产数据库进入市场伊始,就面临着上下两方夹击的严峻竞争,必须在产品定位、价格体系、营销方式、支持服务等非研发范畴中迅速培养能力,并以创新来改变劣势。目前国产数据库只在局部市场上崭露头角,宣传声势和知名度远远不够,没有像国产操作系统、中间件、办公套件等产品那样,与国外主流产品开展正面竞争,也并没有引起国外厂商的重视。也正因如此,国产数据库仍大有可为。
关于XML技术
20世纪70年代,数据库系统的发展进入了“关系型数据库系统(relational database)”时期。随着信息技术和市场的发展,人们发现关系型数据库系统虽然技术很成熟,但其局限性也是显而易见的:它能很好地处理所谓的“表格型数据”,却对技术界出现的越来越多的复杂类型的数据无能为力。九十年代以后,数据库业界一直在研究和寻求所谓的“后关系型数据库系统(post-relational database)”。XML技术的诞生就是为了统一不同格式的数据,实现不同系统之间的信息共享,增加系统价值。
XML是一种标记语言,以文本为基础,具有易读性和平台无关性,它以其结构化、可扩展性及灵活性的特点引起了业界的普遍关注。XML技术的诞生就是为了统一不同格式的数据,实现不同系统之间的信息共享,增加系统价值。XML是处理非结构化数据和半结构化数据的桥梁。由于XML是一种可自我描述定义的元语言,所以它将大量用于制定行业内及行业间数据交换的标准。围绕着XML已经形成了一大批新的技术及标准。工业界也在加紧制定自己行业的XML标准。目前,XML 数据已被广泛地用于实际应用。在企业内部,80%的信息都是除结构化数据以外的文档、邮件、音频视频等类型的非结构化数据,而这些数据的管理用XML形式描述是最好的。更多的例子包括办公文档(DOC, XLS),网页(HTML),PDF,图像(JPG, GIF),音频(MP3),视频(MPG, AVI),文本等主流非结构化数据。可以预见,在以互联网为基础的企业及商务应用中,XML数据将呈爆炸性地递增。
XML数据库的优势
江苏倍多科技前身Ipedo成立于美国硅谷,是原生XML数据库行业奠基者及标杆企业,同时也是行业标准的发起人之一。目前,江苏倍多的XML数据库已是相对成熟的产品,并在国内国外有大规模应用的客户,如英国电信,法国电信,美国海军,惠普,路透社,北京地税局,江苏电科院等。从产品的成熟化角度,江苏倍多的XML数据库同IBM和甲骨文等企业站在同一条起跑线上,而从产品的性能上则具有一定优势。
大量资料和数字显示XML数据库的应用已经成为数据库产业新一轮的热点。业界最大的企业软件公司,如:IBM,甲骨文和泰瑞数据都已正式推出各自的XML数据库解决方 案。电子病历,电子商务和信息整合市场都将给该市场带来数以万亿的市场机会。
相对IBM和甲骨文的以关系数据库起家的企业相比,XML数据库有天生的性能方面的优势。IBM和甲骨文是在原有关系数据库基础上扩展了XML支持模块,完成XML数据和数据库之间的格式转换和传输。即把XML数据本身的树形结构转换成关系模型中的二维表结构,从存储粒度上,可以把整个XML文档作为RDBMS表中一行,或把XML文档进行解析后,存储到相应的表格中。为了支持W3C的一些XML操作标准,如XPath,XED提供一些新的原语(如Oracle9iR2开始增加了一些数据包来操作XML数据等),并优化了XML处理模块。将XML树状结构翻译成关系二维表,再从二维表翻译回树状结构,会造成性能方面的很大问题。
XML数据的实现方式是原生态XML结构,即从底层就支持树状结构,采用层次数据存储模型,保持XML文档的树形结构,省掉了XML文档和传统数据库的数据转换过程。原生态XML数据结构是专门为存储XML文档设计,也兼有一般数据库的特性,例如支持事务,并发控制,查询语言,安全机制,二次开发接口等。唯一的不同之处在于其内部存储模型是基于XML文档树形结构,而非关系模型。 下图可以明确地反映出两种实现方式的根本区别。
在XML数据库行业组织的XML数据库基准程序XMark的测试中,倍多的产品性能明显胜出。而在最近国防某个项目的测试中,XML数据库与甲骨文同台比测,结果表明,XML数据库在若干重要指标上有明显优势,尤其是在优化和查询方面,一扫国内数据库在高性能和稳定性方面普遍存在的颓气。下图表明了XMark测试的结果。
前景美好 道路曲折
近年来我国发布的电子政务标准和文档标准,如UOF,UOML等,均基于XML。我国的证券交易市场(如上海证券交易所)已开始采用基于XML的财务报表标准XBRL。而最近才发布的电子病历标准征求意见稿及健康档案标准更是为XML的应用提供了一个广阔的前景。要把XML数据库产业做大,任何公司都知道离不开中国市场。中国有13亿人,单“全民健康档案”一个项目就足以撑起整个产业。
但是,就目前而言,甲骨文、微软、IBM、Sybase等巨头在中国数据库市场上继续占据着97%以上的绝对垄断份额,这一形势没有大的改变。长期垄断导致许多重点用户依附于国外产品,不易接受新的替代品,这反过来促进了垄断趋于极端。后来者面临的市场进入壁垒越来越高,是国产数据库面临的主要困难之一。
此外,国内用户使用盗版数据库的情况十分普遍,不亚于操作系统和办公软件,而且更为隐蔽;加上近年来国际开放源码产品的兴起也为国内用户提供了更多的选择,MySQL、PostGreSQL等提供了比较完整的数据库功能,能够满足大多数中低端应用需要,这些很大程度上削弱了国产数据库的价格优势。
因此说,国产数据库进入市场伊始,就面临着上下两方夹击的严峻竞争,必须在产品定位、价格体系、营销方式、支持服务等非研发范畴中迅速培养能力,并以创新来改变劣势。目前国产数据库只在局部市场上崭露头角,宣传声势和知名度远远不够,没有像国产操作系统、中间件、办公套件等产品那样,与国外主流产品开展正面竞争,也并没有引起国外厂商的重视。也正因如此,国产数据库仍大有可为。