基于XML的元数据相关应用研究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:philipsyin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:元数据作为一种编码体系,在数据管理中占据着重要的地位。本文从元数据的概念、相关格式、携带工具(RDF),以及XML的相关概念入手,探讨了元数据的资源描述框架(RDF)及其在数字图书馆和数字博物馆中的应用。
  关键词:XML;元数据;RDF
  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2009)15-3849-03
  
  Base on Metadata Relevant Application Study of XML
  LUO Shu-jun
  (Lianyuan No.1 middle school,Lianyuan 417100,China)
  Abstract: Meta-data as a coding system, data management occupies an important position. In this paper, the concept of meta-data, relevant format, portable tools (RDF), as well as the relevance of the concept of XML, meta-data of the Resource Description Framework (RDF) and its application in digital library and digital museum applications.
  Key words: XML; Metadata; RDF
  
  1 引言
  
  互联网上的电子资源与日俱增,无限膨胀,怎样让用户迅速有效地查找到所需信息,这是目前还没有很好解决的问题。尤其是在网格技术方兴未艾的今天,如何更好的定义和组织数据就是计算机从业人员亟需解决的问题。当今数字图书馆和数字博物馆的建设已成为全球信息化过程中不可或缺的重要组成部分。本文首先介绍了XML和元数据等相关技术研究,并从数字图书馆和数字博物馆的建设中对元数据的应用做一些探讨。
  
  2 元数据
  
  元数据[1],首先是一种编码体系,特别是指根据某种标准来对文献中的词及其他元素进行编码,从而揭示描述文献的这些基本元素,元数据提供了一种框架体系和方法来描述,表示数字化信息的基本特征,并通过一整套公用的编码框架体系管理、交流、传播和组织数字化信息。元数据用来描述数字化信息资源,特别是网络信息资源的编码体系,这导致了元数据和传统的基于印刷型文献的编目体系的根本区别,数字化信息具有传统印刷型信息所不具备的基本特征和属性,是机读型信息必须借助计算机及其网络读写和传播,是分布式的这些信息可能并不存储在同一个地方,而可能分布在不同的数据服务器上,具有严格的格式化特征,元数据不仅要描述数字化信息的内容特征,而且更要描述数字化信息的这些基本属性,使得数字化信息得以被有效传播、交流和利用。元数据的最为重要的特征和功能是为数字化信息资源建立一种机器可理解框架,元数据主要是为了帮助计算机系统获得并理解数字化信息的基本特征,包括系统特征,内容特征,权利特征诸方面,所谓计算机理解就是指利用元数据体系,使得计算机系统可以自动辨析、分解、提取和分析归纳数字化信息资源的基本特征。根据以上讨论,我们可以这样来界定元数据。元数据是一种用来描述数字化信息资源,特别是网络信息资源的基本特征及其相互关系,从而确保这些数字化信息资源能够被计算机及其网络系统自动辨析、分解、提取和分析归纳,即所谓机器可理解性的一整套编码体系。
  
  3 XML
  
  XML为可扩展标记语言(Extension Markup Language),它是国际互联网联盟(W3c)开发的用于网络环境下网页设计和数据交换、管理的新技术,并已成为推荐标准,具有很好的应用和发展前景。XML作为一种标记语言,它描述称为XML文档的一类数据对象,并部分描述处理这类数据的计算机程序。它适用于多种领域各种电子资源(如全文、多媒体)的处理,并且得到了业界的支持和响应,极具成为信息时代数据交换标准的潜力。XML的用途主要有两个,一是作为元标记语言,定义各种实例标记语言标准:二是作为标准交换语言,担负起描述变换数据的作用。文档类型定义(Document Type Definition,DTD)是一套关于标记符号的语法规则,它定义了文件的整体结构和语法,使用XML进行数据交换的行业或组织可以定义他们自己的DID。
  
  4 基于XML的元数据互操作性问题
  
  由于不同的领域(甚至同一领域)往往存在多个元数据格式,当在用不同元数据格式描述的资源体系之间进行检索、资源描述和资源利用时,就存在元数据的互操作性问题(Interoperability):多个不同元数据格式的释读、转换和由多个元数据格式描述的数字化信息资源体系之间的透明检索。
  解决元数据互操作性的方法是建立一个标准的资源描述框架(RDF)[2],用这个框架来描述所有元数据格式,那么只要一个系统能够解析这个标准描述框架,就能解读相应的Metadata格式. XML通过其标准的DTD定义方式,允许所有能够解读XML语句的系统辨识用XML_DTD定义的Metadata格式,从而解决对不同格式的释读问题。RDF定义了由Resources、Properties和Statements等三种对象组成的基本模型,其中Resources和Properties关系类似于E-R模型,而Statements则对该关系进行具体描述。RDF通过这个抽象的数据模型为定义和使用元数据建立一个框架,元数据元素可看成其描述的资源的属性。进一步地,RDF定义了标准Schema,规定了声明资源类型、声明相关属性及其语义的机制,以及定义属性与其它资源间关系的方法。
  
  5 元数据的重要应用
  
  元数据是非常重要的,因为它不但可以描述数据是什么,而且可以减少数据集的大小。 通过建立元数据,你可以在所有部门内统一数据的命名、定义、编目和操作标准。这依次为彼此间理解、合作和共享资源起到了非常巨大的作用。比如:在GIS系统中,利用元数据,可以使空间数据的访问和管理变得更容易。元数据提供了对要素以及属性项一级的元数据管理。这样,数据更新可以更简单并且结合进日常的数据使用中。元数据并不是终极,它是一个大大提升应用空间数据的工具。因此,在GIS中元数据能起到很大的作用。 数据仓库中的元数据服务,对数据仓库的构造、管理和维护,使各个不同来源的数据可以被集成到一个单一的数据仓库应用系统之中,软件人员可以创建出包含各种工具优点的数据仓库解决方案。从元数据的上述应用不难看出元数据在数字化信息管理中的作用。
  5.1 元数据在数字图书馆中的应用
  传统图书馆流程中是将图书、期刊等纸介质的资料按照一定的格式进行编目,这样就将散乱的资料组织成有序的集合,便于用户的查找。数字图书馆[3]中的数字化资料同样需要标引和著录,元数据的出现就是为了满足这种需要。目前網上数字资源比较常用的元数据格式为:MARC格式[4],都柏林核心元数据集(Doubin Core) [5],VRA核心类目(VRA Core Category),艺术作品著录类目(Categories for the Description of Works of Art),REACH著录单元集合(REACHelement)等。
  5.1.1MARC--数字化资源编目
  MARC是用于描述、存储、交换、控制和检索机读书目数据的标准。它起源于20世纪60年代。主要针对印刷型文献的描述,也适用于缩微、照片、视听资料的描述。MARC的数据结构严密,其著录格式遵循国际标准,有严格的语义规则和完整的信息描述手段,能够精确完整地记录文献资源;在检索点选择原则上能够确保数据元素组成的统一性,有利于数据交换。因此,MARC是一种描述能力很强的元数据格式。为了适应电子文献的数据著录和检索的需要,1992年,美国国会图书馆、美国图书馆协会和0CLC的专家提出了增加MARC的“电子定位与存取”字段——856字段,并于1993年1月由“书目信息和机读格式委员会”通过,成为记录电子信息资源的重要字段。运用MARC著录数字资源的问题解决后,以美国为代表的世界各国相继围绕MARC在数字信息整理与应用方面开展了一系列研究,并取得相当成效。0CLC据此相继推出了因特网信息资源编目的项目InterCAT,建立通过因特网可存取资料的目录(Building a Catalog of Internet-Accessible Meterials),联机资源合作目录(CORC)等研究项目。目前已建立了拥有近百万条记录的数字化资源书目记录数据库。
  5.1.2 都柏林核心元数据集
  都柏林核心元数据集是1995年3月由美国0CLC与NCSA(国家超级计算机应用中心)联合发起,52位来自图书馆界和电脑网络界的专家共同研究产生的一套描述网络电子文献的方法,以实现网上信息的辨识、查询和检索。这一方法的核心是如何用一个简单标准化的元数据记录来描述种类繁多的电子信息,使非图书馆专业人员也能够了解和使用这种内容描述方法,达到更有效的描述和检索网上资源。由于这次研讨会是在俄亥俄州哥伦布市的都柏林镇举行,所以会议推出的“核心元数据集”被称为“都柏林核心元数据集”(Dublin Core E1ements)。
  都柏林核心元数据集由15个基本元素组成,分为三大部分:一、内容描述部分:题名、主题、说明、来源、语种、关联和覆盖范围;二、知识产权部分:创建者、出版者、其它责任者和权限;三、外形描述部分:日期、类型、形式和标识符。
  相比复杂的MARC格式,DC只有15个基本元素,较为简单。而且根据其可选择原则,可以简化著录项目。对于需要详细著录的资料,DC引进了修饰词(Lang)、架构词(Scheme)和子元素修饰词(Subelement),以进一步明确元数据的特性。特别是通过架构修饰词,把MARC/AACR的优点和各种已有的分类法、主题词表等吸收进来,极大地丰富和增强了DC的描述性和权威性。同时还允许各应用都柏林核心元素数据的不同国家和地区根据各自的实际,在15个元素的基础上,按规定的互操作性原则增加新的元素或新的修饰词。由于其在数字资源整理中的优越性,目前DC被翻译成近30种语言,其用户遍及世界各地。
  从上面的分析可以看出,数字图书馆的元数据体系就是数字化图书馆中所有信息的描述方法,即各种元数据结构及其实现模块的总和,是数字图书馆的基础结构。元数据体系构建了数字图书馆的逻辑框架和基本模式,它决定了数字图书馆的基本功能、运用模式和系统运行的总体性能。数字图书馆的运作,无论是存取过程和检索过程,都是以元数据为基础实现的。
  5.2 元数据在数字博物馆中的应用
  博物馆是各种各样的人了解大自然及其文化的地方,由于技术进步,呈现为能够具有教育与娱乐功能的集合体。它还是历史、科学、工艺美术以及诸如航空、航天等技术重要的研究中心。传统观念下,提到博物馆人们立刻联想到的是处于某个地方的馆舍、各种实物的按某种规则的陈列及其介绍等。随着计算机的普及、网络通信速度的提高、数据库及其管理技术水平的提高、多媒体信息技术的迅速发展,博物馆正在发生着巨大变化,出现了“电子博物馆”、“虚拟博物馆”、“数字博物馆”的概念。
  数字博物馆系统的核心是藏品信息,数字博物馆的一切功能都是围绕着藏品信息的收集、组织和利用而展开的。各类博物馆、纪念馆、文物保护单位因其性质和类型的不同,各馆的藏品分类、标引规则、组织结构和管理方法自成体系,由于博物馆藏品编目及管理缺乏统一标准,制定规范时要参照有关国家统一标准和国家文物局颁布的《博物馆藏品信息指标体系规范》,力求藏品编码全面、完整、规范,能从多方面对面品进行准确的、深层次的描述,并提供声音、图像、视频等多媒体数据的描述。制定的系统元数据方案应具有可扩展性,能够方便地增加新的元数据内容,还要能实现不同系统间的数据交互。以下是以文物数字博物馆为例编写的一个dtd。
  <?xml version="1.0" encoding="GB2312"?>
  <!DOCTYPE simplemode[
  <!ELEMENT CulturalRelic (title, dynasty?, material?, acqusitionPlace?, function*, shape, acqusitionMethod?, primitiveCode?, owner*, keyword*, source?, relation?, language? identifier?, description?)>
  <!ELEMENT title(#PCDATA)>
  <!ELEMENT dynasty(#PCDATA)>
  <!ELEMENT material(#PCDATA)>
  <!ELEMENT acqusitionPlace(#PCDATA)>
  <!ELEMENT function (#PCDATA)>
  <!ELEMENT shape(#PCDATA)>
  <!ELEMENT acqusitionMethod(#PCDATA)>
  <!ELEMENT primitiveCode(#PCDATA)>
  <!ELEMENT owner(#PCDATA)>
  <!ELEMENT keyword(#PCDATA)>
  <!ELEMENT source(#PCDATA)>
  <!ELEMENT relation(#PCDATA)>
  <!ELEMENT language(#PCDATA)>
  <!ELEMENT identifier(#PCDATA)>
  <!ELEMENT description(#PCDATA)>]>
  
  6 结论与展望
  
  元数据在资源发现方面是一个非常重要的工具,他们允许数字对象的不同版本,不同格式的文献处理,元数据不仅能描述这些版本,而且允许对象之间的联系与连接,在数字图书馆与数字博务馆中更具应用价值,所以在以后的工作中要注意跟踪元数据发展、积极参与制定元数据标准、加快元数据应用,并加快研究有效利用元数据进行检索(包括异构系统透明检索)、相关性学习、个性化处理等机制,加快研究元数据与数字对象和数字化资源体系有机整合的途径与方法,推进研究利用元数据进行基于知识的数据组织和知识发现,以期更好的利用元数据为我们服务。
  
  参考文献:
  [1] 张靖.基于XML/RDF的MARC元数据描述研究[J].微计算机信息,2007,12(36):3-5.
  [2] 林丽.XML在图书馆中的应用研究[J].科技信息,2008,4(16):284-294.
  [3] 鄭建标.一种基于XML和元数据的工具框架研究[J].微计算机信息,2007,3(9).
  [4] 胡敏.网络信息资源的MARC格式编目[J],情报杂志,2005,11(11):82-84.
  [5] 都柏林核心元数据元素集1.1版.http://dc.library.sh.cn/1-1.htm,2009-4-15.
其他文献
摘要:虚拟校园是利用虚拟现实技术,在计算机中模拟再现真实校园景观,让那些不能在实地参观的人拥有身临其境的感受。该文初步探究了X3D技术,并基于该标准,运用记事本进行X3D程序编码,在运用3DS Max创建的虚拟空间的基础上实现了虚拟红满堂漫游系统。  关键词:虚拟现实;虚拟校园;X3D漫游  中图分类号:TP393文献标识码:A文章编号:1009-3044(2011)31-pppp-0c  The
期刊
摘要:该文介绍了为满足学生评价工作而设计的基于web技术的学生评价系统,并对此系统的需求、总体进行了设计分析。对提高管理学生评价工作的效率具有深刻的意义。  关键词:Web技术;系统实施;需求分析   中图分类号:TP311文献标识码:A文章编号:1009-3044(2011)10-2224-02  随着教育事业及网络的不断发展,学校的各种机制越来越完善,信息管理趋于网络化、信息化。学生数量庞大,
期刊
摘要:随着我国教育改革的不断深入,对于教学所用的材料和资源的认识也在不断调整,数字化教学资源的“服务性”表征也越来越强,成为为教学服务、引导学生认知发展、生活学习、价值观建构的媒介。该文以清远职业技术学院为例,针对高职院校数字化教学资源建设调查及对策进行论述,希望能进一步促进高职院校数字化教学资源建设。  关键词:数字化教学资源;清远职业技术学院;调查;对策  中图分类号:G642文献标识码:A文
期刊
摘要: 该文提出了一种解决物联网通信安全的中间件系统设计方案。重点分析了物联网的组成要素和安全隐患,及中间件系统在物联网安全通信中的关键作用,提出了通过构建中间件系统解决物联网通信安全问题的设计及实施方法。笔者多年来从事计算机安全方面相关工作,综合计算机科学,自动控制,通信技术相关学科知识,提出此中间件模型,以期为物联网安全问题提供部分解决方案。  关键词:物联网;RFID;中间件  中图分类号:
期刊
摘要:通用串行总线(USB)是一种简单的计算机外围接口标准。它具有即插即用、扩展方便等优点,已成为计算机必备的一个接口。该文介绍了oHcI数据四种传输类型之一的B ulk传输,并对Bulk传输的IN/OUTToken进行研究。然后描述在调试Massstorage设备初始化过程中碰到的一个因OHCI Bulk传输而引起的问题,针对该问题进行分析,利用各种调试工具解决问题,文章最后总结了解决问题的心得
期刊
摘要:建构主义理论认为,学生的学习再也不是由教师把知识简单地传授给学生,而是由学习的主体——学生自己去主动地建构知识、获取知识。采用了任务驱动,改革了课程评价模式,实现了全员参与课堂、以学生为主体。  关键词:以学生为主体;多媒体技术;lllustrator;任务驱动  中图分类号:TP37 文献标识码:A 文章编号:1009-3044(2010)23-6613-02
期刊
摘要:通过实例介绍了Madab在微分、积分学中的应用,展示了Madab在高等数学计算机辅助教学中的强大功能。  关键词:Matlab;微分;积分;辅助教学  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2010)23-6637-03
期刊
摘要:在研究了μCOS-II实时操作系统体系结构、运行环境及运行机制基础上,针对Cortex-M3内核的移植需求, 对μCOS-II实时操作系统在Cortex-M3核上的移植进行了实践。同时分析了μCOS-II在Cortex-M3上的移植条件,编写及修改了移植环境的定制与配置,实现了μCOS-II在Cortex-M3上的移植,最后给出了一个基于μCOS-II嵌入式实时操作系统的简单应用。  关键词
期刊
摘要:数据库是企业信息系统运转的核心,同时数据库也是黑客攻击的主要目标,因此,研究一种有效的数据库加密技术对企业的信息安全十分重要。介绍了SQL Server数据库的安全问题和常见的数据库加密技术,提出了一种针对于数据库列的内部加密技术。实验结果表明,针对列的内部加密技术不仅能够取得理想的保密效果,同时也得到了最优化的数据库运行性能。  关键词:SQL Server;数据库;加密  中图分类号:T
期刊
摘要:近期校园网内频繁爆发一种叫ARP木马的网络病毒。严重影响了校园网的稳定和安全。该文介绍了ARP协议的工作过程以及ARP欺骗的原理,并提出了切实有效的防治ARP病毒的方法。
期刊