论文部分内容阅读
摘要:元数据在网络信息资源的管理、存储和检索中发挥着重大的作用。目前业界对于元数据的定义和管理都还没有统一的标准。在现有元数据标准的基础上进行扩展,并提出一种基于XML的元数据模型的设计方法,在元数据的层次上来定义和管理资源。
关键字:元数据;XML;XML Schema;元数据模型
中图分类号:TP30文献标识码:A 文章编号:1009-3044(2008)06-10ppp-0c
A Research About The Method Of Metadata Model Design Based On XML
XU Xiao-jing,YANG Qing
(Computer Science And Technology Academy,Wuhan University Of Technology,Wuhan 430063,China)
Abstract:Metadata takes an important action on the manage、save and search of network information resources. Today, there has no uniform standard about the definition and management of metadata. Based on the exist standard of metadata and extend it, bring out a design method about the metadata model based on XML, definite and manage resources on the metadata levels.
Key words:metadata; xml; xml schema; metadata model
1 引言
计算机网络的发展,使数据形式出现了多样化,除了数据库以外,还有许许多多的数据存放于TXT文件或者其他字处理文件和表格文件或者视频和图像文件,这些数据本身又呈现出各种不同的形式。这样,大量分散的形式以及不同格式的数据给现代数据处理带来越来越大的困难。
数据库特别是关系数据库具有极强的数据管理能力,数据的安全程度高,具有稳定可靠的并发访问机制。但是各数据库管理系统之间的异构性及其所依赖操作系统的异构性,严重限制了信息共享和数据交换的范围;此外,数据库技术的语义描述能力较差。因此,在数据交换和共享方面,传统的关系数据库面临着严重的挑战。
元数据是”关于数据的数据”,它极大的方便了异构系统间数据的交换和共享。元数据建模是指为更好利用数据,为所使用数据创建更健壮、生命力更强的数据模型的行为。 一般来说元数据建模包含两个方面工作,信息建模和创建模式。信息建模包括静态信息建模、动态信息建模、文档设计,而创建模式则是利用元语言构建数据模型。元数据模型描述了系统内各个元素、元素之间的关系及元素的属性,为在不同模型中交叉使用公共定义数据提供了多方面的协定。
XML作为更好实现网络互操作和数据交换的标记语言,已经得到极大发展。XML正在逐渐成为Web上数据组织和交换的标准,也是实现语义Web和Web服务的基础。XML作为一种语言,可以对结构化和半结构数据进行标注,作为一种标准可以建立特定领域的数据的组织和交换规范。因此,目前已经成为不同行业和领域中元数据建模所采用的标记语言。
异构系统间数据的交换和共享以及不同形式内容的管理,这些都已经成为急需解决的问题。目前,已经有了很多关于内容管理和元数据建模方面的研究,但这些研究大多是针对特定需求的专项研究。为了系统的研究与内容管理相关的处理方案,我们提出一套基于XML的元数据模型的设计方法。本文建立了一个元数据模型的框架,用以说明与元数据处理以及异形内容管理相关的途径。
2 相关概念简介
2.1 元数据模型
目前一些专家认为元数据模型[4]应当包括两个层次:描述数据自身的元数据和描述数据之间关系的元数据。
描述数据自身的元数据主要是指那些只与数据本身相关的一些信息,比如数据标识信息、数据生成时间、数据质量信息和数据发布信息等现有的元数据标准。而描述数据之间关系的元数据则描述了各个数据集是通过什么样的关系构成了一个有机的整体,比如最基本的组成关系。
2.2 其它概念
元数据模型包括描述数据自身的元数据和描述数据之间关系的元数据。而元数据是关于数据的结构化数据。目前,一般的都使用XML语言来表示元数据,而XML文档的结构或模式需由DTD或XML Schema来描述。
根据上面分析,得出本文涉及的各概念之间的相互关系,用下例UML图来表示:
图2 元数据模型框架
由图2可知,此框架主要由三部分组成:元数据层、元数据管理层以及元数据处理模块。输入数据流为该框架提供数据源,元数据处理模块在元数据层和元数据管理层之间发挥着“桥梁”的作用,它主要实现元数据的读取、编辑、写入和解析等功能,辅助完成元数据模型的管理。
元数据主要是从各类数据源中提取而来。不管是TXT文件、字处理文件、表格文件还是各类图象视频文件,都可以按照一定的标准来提取元数据。最初提取出来的元数据是一个个分散、杂乱无章的数据,没有系统性。因此,为了便于元数据的统一管理和使用,这里我们提出了元数据层的概念。元数据层是统一存放元数据的地方,我们可以把它看作是一个元数据的容器。这个容器是元模型的核心,它存储着一系列定义元数据的结构良好的XML文档,它是实现异构系统间数据交换和共享的基础。
元数据管理层主要完成元数据模型的创建、存储、查询、修改等功能。在本文中,元数据模型即一组“XML Schema”和“XML文档”。由于XML Schema本身也是一个XML文档,所以,只要有支持XML数据类型的容器就可存储元数据模型。如,Oracle 10g数据库就支持XML Type的数据字段,此外,它还提供XQuery来支持对基于XML元素的查询。这样,就可满足元模型的管理和查询。
该元数据模型框架是以元数据的管理为中心而设计的。框架的主要应用场景是一般的内容管理系统,其中涉及到不同类型的数据源,异构系统之间数据的交换和共享以及需要实现基于语义的查询。
3.2 元数据的定义
这里,我们定义元数据遵从的标准是基于国际上公认的都柏林核心元素集[6](DUBLIC CORE,DC)而扩展的。DC元数据格式描述的对象是网络资源。简单的元素定义和设置可以很方便的著录,是DC获得广泛应用的重要原因,然而它也带来另外一个问题,对著录对象的描述深度不够,不能进行专指度较高的检索。因此,本文将采用DC应用模式中的简单DC(Simple DC)模式来定义元数据。
关键字:元数据;XML;XML Schema;元数据模型
中图分类号:TP30文献标识码:A 文章编号:1009-3044(2008)06-10ppp-0c
A Research About The Method Of Metadata Model Design Based On XML
XU Xiao-jing,YANG Qing
(Computer Science And Technology Academy,Wuhan University Of Technology,Wuhan 430063,China)
Abstract:Metadata takes an important action on the manage、save and search of network information resources. Today, there has no uniform standard about the definition and management of metadata. Based on the exist standard of metadata and extend it, bring out a design method about the metadata model based on XML, definite and manage resources on the metadata levels.
Key words:metadata; xml; xml schema; metadata model
1 引言
计算机网络的发展,使数据形式出现了多样化,除了数据库以外,还有许许多多的数据存放于TXT文件或者其他字处理文件和表格文件或者视频和图像文件,这些数据本身又呈现出各种不同的形式。这样,大量分散的形式以及不同格式的数据给现代数据处理带来越来越大的困难。
数据库特别是关系数据库具有极强的数据管理能力,数据的安全程度高,具有稳定可靠的并发访问机制。但是各数据库管理系统之间的异构性及其所依赖操作系统的异构性,严重限制了信息共享和数据交换的范围;此外,数据库技术的语义描述能力较差。因此,在数据交换和共享方面,传统的关系数据库面临着严重的挑战。
元数据是”关于数据的数据”,它极大的方便了异构系统间数据的交换和共享。元数据建模是指为更好利用数据,为所使用数据创建更健壮、生命力更强的数据模型的行为。 一般来说元数据建模包含两个方面工作,信息建模和创建模式。信息建模包括静态信息建模、动态信息建模、文档设计,而创建模式则是利用元语言构建数据模型。元数据模型描述了系统内各个元素、元素之间的关系及元素的属性,为在不同模型中交叉使用公共定义数据提供了多方面的协定。
XML作为更好实现网络互操作和数据交换的标记语言,已经得到极大发展。XML正在逐渐成为Web上数据组织和交换的标准,也是实现语义Web和Web服务的基础。XML作为一种语言,可以对结构化和半结构数据进行标注,作为一种标准可以建立特定领域的数据的组织和交换规范。因此,目前已经成为不同行业和领域中元数据建模所采用的标记语言。
异构系统间数据的交换和共享以及不同形式内容的管理,这些都已经成为急需解决的问题。目前,已经有了很多关于内容管理和元数据建模方面的研究,但这些研究大多是针对特定需求的专项研究。为了系统的研究与内容管理相关的处理方案,我们提出一套基于XML的元数据模型的设计方法。本文建立了一个元数据模型的框架,用以说明与元数据处理以及异形内容管理相关的途径。
2 相关概念简介
2.1 元数据模型
目前一些专家认为元数据模型[4]应当包括两个层次:描述数据自身的元数据和描述数据之间关系的元数据。
描述数据自身的元数据主要是指那些只与数据本身相关的一些信息,比如数据标识信息、数据生成时间、数据质量信息和数据发布信息等现有的元数据标准。而描述数据之间关系的元数据则描述了各个数据集是通过什么样的关系构成了一个有机的整体,比如最基本的组成关系。
2.2 其它概念
元数据模型包括描述数据自身的元数据和描述数据之间关系的元数据。而元数据是关于数据的结构化数据。目前,一般的都使用XML语言来表示元数据,而XML文档的结构或模式需由DTD或XML Schema来描述。
根据上面分析,得出本文涉及的各概念之间的相互关系,用下例UML图来表示:
图2 元数据模型框架
由图2可知,此框架主要由三部分组成:元数据层、元数据管理层以及元数据处理模块。输入数据流为该框架提供数据源,元数据处理模块在元数据层和元数据管理层之间发挥着“桥梁”的作用,它主要实现元数据的读取、编辑、写入和解析等功能,辅助完成元数据模型的管理。
元数据主要是从各类数据源中提取而来。不管是TXT文件、字处理文件、表格文件还是各类图象视频文件,都可以按照一定的标准来提取元数据。最初提取出来的元数据是一个个分散、杂乱无章的数据,没有系统性。因此,为了便于元数据的统一管理和使用,这里我们提出了元数据层的概念。元数据层是统一存放元数据的地方,我们可以把它看作是一个元数据的容器。这个容器是元模型的核心,它存储着一系列定义元数据的结构良好的XML文档,它是实现异构系统间数据交换和共享的基础。
元数据管理层主要完成元数据模型的创建、存储、查询、修改等功能。在本文中,元数据模型即一组“XML Schema”和“XML文档”。由于XML Schema本身也是一个XML文档,所以,只要有支持XML数据类型的容器就可存储元数据模型。如,Oracle 10g数据库就支持XML Type的数据字段,此外,它还提供XQuery来支持对基于XML元素的查询。这样,就可满足元模型的管理和查询。
该元数据模型框架是以元数据的管理为中心而设计的。框架的主要应用场景是一般的内容管理系统,其中涉及到不同类型的数据源,异构系统之间数据的交换和共享以及需要实现基于语义的查询。
3.2 元数据的定义
这里,我们定义元数据遵从的标准是基于国际上公认的都柏林核心元素集[6](DUBLIC CORE,DC)而扩展的。DC元数据格式描述的对象是网络资源。简单的元素定义和设置可以很方便的著录,是DC获得广泛应用的重要原因,然而它也带来另外一个问题,对著录对象的描述深度不够,不能进行专指度较高的检索。因此,本文将采用DC应用模式中的简单DC(Simple DC)模式来定义元数据。