基于CIDOC CRM的文化遗产资源的元数据集成

来源 :现代情报 | 被引量 : 0次 | 上传用户:fengyun816ok
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
   [摘 要]文化遗产资源的异构性和保存机构的多样性,决定了文化遗产领域元数据标准的多样性。为了满足为异构信息资源提供统一存取的信息系统的需求,论文介绍了基于本体的元数据集成方法,提出了以CIDOC CRM为中介机制的元数据集成方案,并以DC为例,详细介绍了DC与CIDOC CRM之间的映射。
  [关键词]元数据集成;CIDOC CRM;本体;文化遗产;DC
  [中图分类号]G25076 [文献标识码]B [文章编号]1008-0821(2010)05-0060-04
  Metadata Integration Based on CIDOC CRM in Culture Heritage Collections
  ——With the Mapping of DC as an ExampleChen Yan Zhou Xin
  (Library,Shanghai University,Shanghai 200444,China)
  
  [Abstract]Heterogeneity is one of the main characteristics of cultural heritage collections.Such collections may be composed of heterogeneous objects,which described by a variety of metadata schemas.This paper introduced an ontology-based metadata integration approach,proposed the use of CIDOC CRM ontology as a mediating schema and described the mapping of the Dublin Core standard for different types to CIDOC CRM,demonstrating a real-world effort for ontology-based metadata integration.
  [Keywords]metadata integration;CIDOC CRM;ontology;cultural heritage;DC
  
  扮演着记忆性机构角色的档案馆、图书馆和博物馆都肩负着保存文化遗产实物及其相关信息的重要责任。这些记忆性机构所保存的文化遗产对象产生于同样的文化背景或时期,有时候拥有同样的创造者。对于一件艺术品来说,作者关于它的手稿或有关它的评论等都处于同一历史文化背景下,提供着份量相当的人文要素的证明和可比文化特征的证据。文化遗产资源的这种异构性和保存机构的多样性,决定了文化遗产领域元数据标准的多样性。而且随着信息技术的发展,用户对于全球存取的需求不断增长。选择一种体系结构和实现技术将现有的异构信息整合并使得以上问题得到解决是一项重要的任务。本体以计算机能够处理的表现语言提供了对同一领域知识的共同理解,支持人与计算机之间的沟通,能够满足为异构信息资源提供统一存取的信息系统的需求。因此,基于本体的元数据集成,能够确保文化遗产内容的完整性和语义网应用下存取的便捷性。
  1 CIDOC/CRM——概念参考模型
  CIDOC概念参考模型(CIDOC Conceptual Reference Model,简称CIDOC CRM)是国际博物馆理事会(International Council of Museums)下属的国际文献工作委员会(International Committee for Documentation,CIDOC)所开发的面向对象的概念参考模型。CIDOC CRM对文化遗产的文献信息工作中所涉及的隐性概念与显性概念及其关系提供了定义及形式化描述,其目的是通过提供一个通用的、可扩展的语义框架以达到对文化遗产信息的共同理解,使文化遗产领域内的信息交流与信息系统的建立拥有共同的语言[1]。因此,它同时也是文化遗产的领域知识本体,为文化遗产信息的标准规范及描述架构提供基础,是语义网环境下一个重要的信息标准和参考模型。
  CIDOC CRM模型的第一个版本于1998年发表,其开发经历了10余年的努力。2006年起CIDOC CRM模型已为国际标准化组织采纳成为国际标准,标准号为ISO 21127:2006。目前最新的版本是2009年颁布的501版。该版本定义了90个类、148个属性,涵盖了围绕特定文物发生的历史史实、人文艺术、考古遗迹、时间地点人物以及版权声明等信息。所有的类都冠以E开头的序号,如E1 CRM Entity[CRM实体];而属性都冠以P开头的序号,如P1 is identified by(identifies)。属性连接“域”和“范围”,定义类与类之间的特定关系。随着模型的不断扩展,类和属性的数量可能还会增加。图1显示了CIDOC CRM核心类之间的一个层级关系。图1 CIDOC CRM核心类的层级关系[2]
   2010年5月第30卷第5期基于CIDOC CRM的文化遗产资源的元数据集成May,2010Vol30 No5CIDOC CRM是一个严格遵循知识本体原则的模型。由于有较长的历史,所以发展得比较完善。而且,2003年成立的FRBR和CIDOC CRM国际协调工作组(International Working Group on FRBR/CIDOC CRM Harmonisation),将包括作品在内的概念整合到CIDOC CRM中,从而进一步优化了CIDOC CRM,使博物馆界的模型可以更好地适用于大规模生产的现象[3]。此模型目前已被多个本领域很有影响的项目所采用[4]。
  2 基于CIDOC/CRM的元数据集成
  由于文化遗产信息的异构性和记忆机构的多样性,各个机构所采用的元数据方案不尽相同。开发一种能够满足各方面需要的统一的标准元数据格式,是解决元数据互操作的方法之一,但在各种信息资源和应用环境之间存在复杂差异的现实环境下不可能真正适应变化多样的应用。元数据是为识别和描述资源而产生的,它并不表达丰富的语义。即使元数据信息的含义及其与所描述资源的关系能够容易的被人所理解和处理,但对于机器来说,这种关系并不显著。相反的,本体中的类通过属性相互连接,属性明确声明了实体之间的语义关系。本体的目的不是描述特定的资源,而是提供了领域内基本概念及其关系的宏观理解,蕴含丰富的语义关系和强大的推理功能,能够满足文化遗产信息载体和记忆机构多样性的要求。同时,由于本体具有良好的概念层次结构和对逻辑推理的支持,能够从语义层面解决数据之间的异构性[5-6]。因而,基于本体的中介机制,能够在语义上集成不同的元数据,为异构信息资源提供统一存取。
  选择CIDOC CRM作为中间标准有以下3个原因:
  (1)CIDOC CRM是一个面向对象的概念参考模型。面向对象形式是目前为止能将多种概念模型集成在一起,而同时又保留各概念模型特性的惟一形式[3]。
  (2)CIDOC CRM的设计目标就是应用于异构文化信息的存档、集成、中介和转换的核心本体。它是由具有层次结构的实体组成的概念模型,实体之间通过属性语义相关。CIDOC CRM定义了文化遗产领域中存在于对象、艺术家、事件、地点及其他概念之间的复杂关系。
  (3)CIDOC CRM作为一个全球标准,提供了与其它多种元数据格式之间的映射。并且,CIDOC CRM自身也在不断地发展和完善。
  CIDOC CRM作为不同系统、元数据和语义之间数据传输和交换基础的价值是显而易见的[7]。CIDOC CRM作为一个中间标准,可以方便地使文化遗产领域不同的元数据得到映射,从而使得集成并且解释领域内各种异构数据成为可能。作为核心本体,CIDOC还可以以合适的形式集合所有必需的文化信息为进一步的推理服务[8]。图2 基于CIDOC CRM的中介机制
   图2展示了一个基于CIDOC CRM中介机制的数据资源集合的结构。不同的资源类型可能使用不同的元数据标准,所有的标准都映射到CIDOC CRM。用户可以向本地系统提出查询请求,本地的查询引擎返回本地数据的检索结果,同时向CIDOC中介系统提交查询。
  CIDOC系统自动根据模型与相关元数据间的映射机制对读者请求进行重新形成,转换成对应元数据能够执行的请求。最终,CIDOC将从各个资源返回的结果集中,转换成本地系统对应的结果形式,并通过本地系统将结果返回给用户。
  3 DC和CIDOC CRM的映射
  DC元数据标准框架分为都柏林核心元数据创新计划(简称DCMI)术语和应用纲要。
  DCMI元数据术语是定义元数据术语的通用标准,其体系为:都柏林核心元数据元素集(定义DC的15个核心元素)、其他元素和元素限定词(定义DC元素限定词和新增元素)、编码体系(定义DCMI中使用的编码体系修饰词)和DCMI类型词表(定义用于确定资源类型的资源类型元素的值)4个部分。
  DC包括15个核心元素,即:题名(Title)、主题(Subject)、描述(Description)、语种(Language)、来源(Source)、关联(Relation)、覆盖范围(Coverage)、创建者(Creator)、出版者(Publisher)、其他责任者(Contributor)、权限(Rights)、日期(Date)、类型(Type)、标识符(Identifier)、格式(Format)。这15个元素按照内容可以分为资源内容描述项、知识产权描述项、外部属性描述项三大项,它们可以选择使用,也可以重复使用,元素顺序可以任意排列,每个元素可以通过限定词进一步扩展。
  其中,DCType是DC元素集的一个元素,定义了描述资源对象的类型,并提供了一些通用的、跨领域的值的集合。包括:collection,dataset,event,image,interactive resource,moving image,physical object,sound,service,software,still image和text。特别是对于collection,DC资源集合描述工作组开发了一个专门的应用纲要(DCCAP),将资源集合作为一种独立的数字或物理对象。表1列出了当DCType取不同值时,DC记录对映的CIDOC CRM中相应的类。表1 DCType的值与CIDOC CRM中类的映射[9-11]
  DCType的值为CIDOC CRMPhysical objectE19 Physical ObjectCollectionE78 CollectionTextE33 Linguistic ObjectImage/Still ImageE38 ImageMoving imageE36 Visual ItemServiceE29 Design or ProcedureDatasetE31 DocumentSoundE33 Linguistic Object(如果内容包含演讲)or E73 Information ObjectSoftware/Interactive ResourceE73 Information ObjectEventE7 Activity
  DC元素集是一个灵活可用的元数据方案,支持数字资源的信息交换和集成。因为其简单、易扩展的特性,DC在数字图书馆中被广泛应用。且DC与许多广泛使用的元数据标准之间存在映射,因此其在数据交换方面的重要性是显著的。但是,DC元素的语义依赖于被描述资源的类型。例如,元素DCcreator对于不同的资源类型来说,有不同的语义,对于文本(Text)来说DCcreator意味着文本的作者或者撰写者,但对于图像(Image)来说DCcreator意味着摄影者或者画家。表2列出了对于不同资源类型,其余14个DC元素所对映的CIDOC CRM类。
  表2 DC的14个核心元素及限定词与CIDOC CRM的映射
  DC的核心元素及限定词CIDOC CRMDCTitleE35 Title or E41 Appellation(DCType的值为Event)DCCreatorE39(Actor)DCPublisherE39(Actor)DCDateE52(Time-Span)DCSubjectE1 CRM EntityDCContributorE39(Actor)DCIdentifierE42 Object Identifier or E75 Conceptual Object Identifier(DCType的值为Text/Sound/Software/Interactive Resource)DCRightsE30 RightDCSourceE24 Physical Man-Made Stuff or E53 Place(DCType的值为Physical Object/Collection)DCCoverageE1 CRM EntityDCDescriptionE62 StringDCFormatMediumE55 Type or E57 Material(DCType的值为Physical Object)DCFormatExtentE54 DimensionDCLanguageE56 LanguageDCRelationIsVersionOf,or DCRelationHasVersion各种资源类型相对映的类,见表1DCRelationHasFormat or DCRelationIsFormatOfE11 Motivation EventDCRelationReplaces or DCRelationIsReplacedByE81 Transformation or E7 Activity(DCType的值为Event)DCRelationRequires or DCRelationIsRequiredByE73 Information ObjectDCRelationReferences or DCRelationIsReferencedByE7 Activity or E73 Information ObjectDCRelationHasPart,or DCRelationIsPartOfE19 Physical Object or E78 Collection(DCType的值为Physical Object/Collection);E33 Linguistic Object(DCType的值为Text/Sound);E38 Image or E36Visual Item or E73 Information Object(DCType的值为Image/Still Image/Moving Image);E73 Information Object(DCType的值为Text/Sound/Software/Interactive Resource)
  在DC中,元素的语义及元素之间的关系说明隐含在元素的定义之中,计算机无法理解和处理。而在CIDOC CRM模型中,这个关系是通过实体——属性——实体显性声明的。因为CIDOC CRM主要关注围绕实体的事件的描述,因此DC元素的语义可以通过CIDOC CRM中的一组关系或者一个事件来表达。例如,在CIDOC CRM模型中类E12 Production与E65 Creation可以用来集中所有与创建事件有关的信息,这两个类都是E7 Activity的子类。下面以文本(Text)为例,列出与创建事件相关的元素在CIDOC CRM中的语义表达:
  DC->DC.Creator≡E33 Linguistic Object P94 has created(was created by):E65 Creation.P14 carried out by(performed)[with subproperty P14.1 in the role:Author≡E55 Type]:E39 Actor
  DC->DC.Creator.Name≡E33 Linguistic Object P94 has created(was created by):E65 Creation.P14 carried out by(performed)[with subproperty P14.1 in the role:Author≡E55 Type]:E39 Actor.P131 is identified by(identifies):E82 Actor Appellation
  DC->DC.Publisher≡E33 Linguistic Object P94 has created(was created by):E65 Creation.P14 carried out by(performed)[with subproperty P14.1 in the role:Publisher≡E55 Type]:E39 Actor
  DC->DC.Publisher.Name≡E33 Linguistic Object P94 has created(was created by):E65 Creation.P14 carried out by(performed)[with subproperty P14.1 in the role:Publisher≡E55 Type]:E39 Actor.P131 is identified by(identifies):E82 Actor Appellation
  DC->DC.Date.Created≡E33 Linguistic Object P94 has created(was created by):E65 Creation.P4 has time-span(is time-span of):E52 Time-Span
  4 结 论
  本文针对文化遗产资源领域提出了一个以CIDOC CRM为中介机制的元数据集成方案,并以DC为例,详细介绍了DC与CIDOC CRM之间的映射。CIDOC CRM定义了文化遗产领域中各个概念的语义关系,为领域知识的描述提供术语,从而确定了该领域的基本知识体系,表达该领域中的公共知识。基于本体的元数据集成方案为不同机构间异构数据的集成提供了一种解决方案。
  
  参考文献
  [1]ICOM/CIDOC Documentation Standards Group.Definition of CIDOC conceptual reference model.Version 501[EB/OL].ICOM/CIDOC CRM Special Interest Group,2009-11-23.
  [2]http:∥cidoc.ics.forth.gr/cidoccoregraphicalrepresentation/hierarchy.html[EB].2009-10-13.
  [3]Riva P.,Doerr M.and umer M.FRBRoo:Enabling a Common View of Information from Memory Institutions[J].International Cataloguing and Bibliographic Control,2009,38(2):30-34.
  [4]http:∥cidoc.ics.forth.gr/usesapplications.html[EB].2009-10-23.
  [5]Skarka W.Application of MOKA methodology in generative model creation using CATIA[J].Engineering Applications of Artificia1 Intelligence,2007,20(5):677-690.
  [6]Kim KY.Ontology-based assembly design and information sharing for collaborative product development[J].Computer-Aided Design,2006,38(12):1233-1250.
  [7]Crofts N.,Doerr M.and Gill T.The CIDOC conceptual reference model:a standard for communicating cultural contents[J].Cultivate Interactive,2003,9.http:∥www.cultivate-int.org/issue9/chios/,2009-10-23.
  [8]Doerr M.The CIDOC conceptual reference module:an ontological approach to semantic interoperability of metadata[J].AI Magazine,2003,24(3):75-92.https:∥www.aaai.org/ojs/index.php/aimagazine/article/view/1720/1618,2009-10-23.
  [9]Kakali C.,Lourdi I.,Stasinopoulou T.,Bountouri L.,Papatheodorou C.,Doerr M.and Gergatsoulis M.Integrating Dublin Core metadata in culture heritage collections using ontologies[C]∥Proceedings of the 7th International Conference on Dublin Core and Metadata Applications,DC-2007,Singapore,2007:128-139.http:∥www.dcmipubs.org/ojs/index.php/pubs/article/view/16/11,2009-10-23.
  [10]Kakali K.,Doerr M.,Papatheodorou C.and Stasinopoulou T.DC.type mapping to CIDOC/CRM[EB/OL].http:∥cidoc.ics.forth.gr/docs/WP5-T55-DC2CRMmapping-060728v02-final.doc,2009-10-23.
  [11]Doerr,M.Mapping of the Dublin Core Metadata Element Set to the CIDOC CRM[EB/OL].http:∥cidoc.ics.forth.gr/docs/dctocrmmapping.pdf,2009-10-23.
其他文献
〔摘 要〕非正式出版文献是地方特色文献的重要组成部分。本文以深圳图书馆为例,分析了非正式出版地方文献种类、时间和来源的分布,论述了编目加工时的细则、特点和建立专题目录数据库等问题,并对非正式出版的地方文献采访提出建议。  〔关键词〕非正式出版文献;地方文献;编目;专题目录数据库;文献采访  〔中图分类号〕G256 〔文献标识码〕A 〔文章编号〕1008-0821(2009)05-0104-03  
期刊
〔摘 要〕个人数字图书馆是数字图书馆技术走向大众的产物,是E时代的精神家园。它以其数字化、数据库化、交互性、个性化、多媒体化等特征改变着人们的生活方式、学习方式、工作方式,具有广泛的应用前途。在这里可以使人们彰显个性、展示风采、交流思想、创新思维、陶冶情操、实现价值。  〔关键词〕个人数字图书馆;精神家园;数字化;个性化  〔中图分类号〕G250.76 〔文献标识码〕A 〔文章编号〕1008-08
期刊
[摘 要]本文从自然资源和人文资源两个角度系统论述了临沂地方文献所蕴藏的经济价值,自然资源是创造地方文献的基础,人文资源充实了地方文献发展,分析了临沂地方文献对临沂地方经济的作用,力求使地方文献推助地方经济跨越发展。  [关键词]地方文献;地方经济;旅游;文化;资源  [中图分类号]G250 [文献标识码]A [文章编号]1008-0821(2010)05-0137-03  Territorial
期刊
[摘 要]河源是广东一个欠发达地级市。公共图书馆事业较为落后,其信息服务工作水平、数字化程度、服务条件等都不能满足社会经济发展对信息资源的需求。由于办学水平的要求,当地高职院校图书馆已发展成为地区最大规模的图书馆,已成为地区资源共建共享的中心图书馆。以高职院校图书馆为中心,建立区域信息服务保障体系,是欠发达地区集中资源、利用资源、调整服务结构为地方经济服务的一项新举措。  [关键词]高职院校;区域
期刊
〔摘 要〕在分析了元数据组织和管理的现状后,本文探讨了如何使用MarcEdit工具,来提高图书馆工作人员获取元数据和转换元数据格式的能力,为读者提供更好的在线服务。  〔关键词〕MarcEdit;元数据;MARC编辑;元数据获取;格式转换  〔中图分类号〕G350.7 〔文献标识码〕B 〔文章编号〕1008-0821(2009)09-0151-04    Application of the Me
期刊
[摘 要]通过合作率和合作度两个指标,对广东省1985年以来的发明专利从发明人角度进行了计量分析。结果显示,广东省发明专利合作强度逐步提升;科研机构和高校的发明专利内部合作强度远高于企业;新材料、生物医药等高新技术领域合作强度较高,而机械装置、消费品等传统技术领域合作强度较低。  [关键词]专利;合作;发明人;计量学;广东省  DOI:10.3969/j.issn.1008-0821.2010.0
期刊
〔摘 要〕文章针对开放存取系统服务质量评价的复杂性、模糊性特点,采用AHP分析法, 构建其评价模型,对国内开放存取系统的服务质量的综合性评价进行研究。  〔关键词〕开放存取系统;服务质量;评价;AHP  〔中图分类号〕G250.76 〔文献标识码〕A 〔文章编号〕1008-0821(2009)04-0034-03    Study on the Evaluation of the Open Acc
期刊
〔摘 要〕本文从“基于用户”视角,对高校图书馆目前普遍存在的服务危机进行定量评价。创建了高校图书馆服务危机的评价方法,依据服务危机评价标准,将服务危机分为无警、轻警、中警、重警、巨警五个等级。以上海应用技术学院为例,对该校图书馆服务危机进行评价。指出对高校图书馆服务危机的评价应采取多个角度,采用多种方式,才能达到全面性、科学性的效果。  〔关键词〕高校图书馆;服务危机;定量评价  〔中图分类号〕G
期刊
[摘 要]针对如何促使投入巨大成本建设完成的信息资源被用户有效使用的问题,本文对图书馆网站用户技术接受影响因素进行了深入研究,首先对图书馆网站与企业信息系统之间的用户技术接受差异进行了分析,其次对南京理工大学图书馆网站资源及服务使用现状进行了调研,再次通过调研结果及理论分析,构建了图书馆网站用户技术接受影响因素结构模型,最后以南京理工大学图书馆网站为例进行了实证研究。研究结果表明,模型中提出的多数
期刊
〔摘 要〕读者满意度测评对于高校图书馆改进和完善服务策略、提高服务质量具有重要的意义。文章介绍了图书馆读者满意度的模糊综合评价测度方法。为弥补满意度测评中主观赋权法的不足之处,本文运用熵权来调整主观赋权法给出的权重系数,使评价结果更加客观、科学、合理。  〔关键词〕高校图书馆;读者满意度;模糊综合评价;层次分析法;熵权  〔中图分类号〕G252 〔文献标识码〕A 〔文章编号〕1008-0821(2
期刊