论文部分内容阅读
摘要:随着档案管理从数字化逐步迈向数据化,保存元数据这一元素在数字档案资源长期保存过程的作用日益凸显。本研究尝试对档案馆的长期保存元数据方案进行系统研究,为相关机构的元数据管理提供决策参考。并采用案例分析法,从保存元数据的内容框架,保存元数据的创建与维护,保存元数据的编码及方案的推广应用等方面对英国国家档案馆数字档案资源的保存元数据方案进行剖析。
关键词:保存元数据 数字档案资源 长期保存英国国家档案馆
保存元数据对数字档案资源的长期保存至关重要,学界和业界关于保存元数据的研究和探索也一直在持续。为支持数字档案资源的长期保存,早在1995年5月,国际空间数据系统咨询委员会(Consultative Committee for Space Data Systems,CCSDS)就制定了开放档案信息系统(Reference Model for an Open Archival Information System,OAIS)参考模型,该模型于2003年最终作为ISO标准(IS014721: 2003)颁发,提供了数字档案资源长期保存和利用的基本概念、术语、元数据框架和功能模型。继而,美国国家档案馆、澳大利亚、英国国家档案馆相继开展了实践探索。2013年1月,美国国家信息标准委员会(National In? formation Standards Organization,NISO)以“保存元数据:数字对象的最佳朋友”为主题召开网络研讨会,以PREMIS的研究与实践为基础,探讨数字信息资源保存元数据的发展问题[1];英国科学数据管理中心( Digital Curation Center,DCC)在其科学数据管理参考手册中专设一章,对科学数据管理中的保存元数据相关问题进行了阐述[2]。2016年美国图书馆协会(American Library Association,ALA)在奥兰多举办年会,会上专门探讨了图书馆、档案馆等机构保存元数据方案的实施方法并举行了ALCTS PARS保存元数据兴趣小组会议报告[3]。2018年以来,随着政府对数字档案资源的长期保存问题的日益重视,保存元数据作为数字档案资源得以长期保存的关键因素也受到业界的普遍关注。
笔者对国内外相关文献进行调研和梳理,发现关于数字档案资源长期保存主题的研究由来已久,但对数字档案资源长期保存元数据(Preservation Metadata)的关注度仍较低,研究成果所涉及的问题相对比较零散。通过总结分析,笔者将数字档案资源长期保存元数据研究归纳为以下几个方面:(1)关于数字档案资源长期保存元数据技术的研究。张晓娟等梳理了数字信息资源长期保存元数据技术的研究进展,指出未来研究将聚焦在保存元数据自动化生成和封装保存,基于本体的语义互操作和多种语义技术融合方面[4]。(2)关于数字档案资源长期保存元数据内容框架的研究。周丽霞等探讨了数字档案资源长期保存涉及的元数据内容,具体包括档案信息内容元数据、档案作品与对象元数据、资源集合元数据、管理与服务机制元数据、管理过程与系统元数据及档案元数据六个层次[5]。其还提出了基于OAIS信息模型的数字档案馆元数据体系[6]。(3)关于数字档案资源长期保存元数据标准的研究。张晓娟等从管理的角度出发,围绕保存元数据的概念、PREMIS保存元数据标准框架和保存元数据质量评估,对包括数字档案资源在内的数字信息资源的长期保存元数据研究动态进行梳理与总结[7]。程妍妍等对目前国际数字档案馆应用的三类元数据标准(文件管理元数据标准、著录元数据标准、长久保存元数据标准)及其项目进行调研,认为以文件元数据为主体的标准体系初步形成,元数据标准模型的兼容性不断增强[8]。孙毛毛探讨了国际标准OAIS元数据参照模型在数字档案管理系统中的设计与实现问题[9]。(4)关于数字档案资源长期保存元数据策略的研究。吴申燕提出基于数字档案资源长期保存的元数据建设策略:元数据标准规范化,增强元数据对数字档案对象的识别能力和捕获能力,重视元数据的捕获能力,重视对元数据的管理等[10]。Tomas等以CREDO为例,针对数字档案资源长期存档过程中保存元数据的维护做了系统研究[11]。程妍妍针对数字档案资源长期保存元数据迁移问题进行了探讨,提出应重点对内容、背景、结构和系统元数据进行迁移并在迁移计划中纳入元数据迁移方案,迁移流程中采取元数
据质量控制等实施策略[12]。
如前所述,当前英美澳等国在数字档案资源长期保存元数据实践方面发展较成熟,其保存元数据方案已取得较好的应用成效。而国内在数字档案资源长期保存元数据等研究及实践尚处于起步阶段,针对案例的深入分析更加少见,笔者以英国国家档案馆的数字档案资源长期保存元数据方案为例展开讨论,通过实例分析为国内相关领域的研究和实践提供参考。
(一)保存元数据的内容框架
元数据内容是保存元数据方案的核心,英国国家档案馆强调对数字档案资源内容特征和表征特征(存储格式、知识产权、软硬件环境等)的全面揭示与长期保存。其开发了数字文件格式登记系统PRONOM,用于数字档案资源保存元数据的创建与维护,该系统通过数据建模的方式模拟数字对象本体及其运行环境(见图1)。
根據PRONOM数据模型,其长期保存元数据框架主要由内容描述元数据、格式属性元数据、权限认证元数据、技术环境元数据等构成(见表1)。
1.内容描述元数据,对数字档案资源内容信息的揭示。它体现了资源内容的价值,使得数字档案资源的有用性得以长期维持与充分发挥,是数字档案资源长期保存元数据方案不可或缺的组成部分。因而,内容描述长期保存元数据在模块属性上属于必选模块。英国国家档案馆在资源内容方面除通过保存元数据揭示数字档案资源各单元内容之外,还比较重视对不同单元间内在关系的描述和揭示,不断完善内容描述长期保存元数据在数字档案资源长期保存过程中的语义关联功能。
2.格式属性元数据,对数字档案资源文件格式属性的描述、识别、记录和保存。这是英国国家档案馆数字档案长期保存元数据方案的特色和优势所在。PRONOM将数字对象的格式定义为数字对象的内部结构和编码,允许对其进行处理,或以人类可访问的形式呈现。同时对数字档案资源的格式属性长期保存元数据做了明确界定,认为一个数字对象的文件格式应通过包括内外部签名、压缩类型、字符编码、文件分类、相关组件及其子集来进行模拟编码。目前,英国国家档案馆将格式属性长期保存元数据作为保存元数据框架的必选模块。
3.权限认证元数据,数字档案资源的版权信息和检索控制条件。英国国家档案馆主要通过IPR实体模块来实现数字档案资源的版权认证。检索控制条件则包含在内外部签名等实体模块中。由于不同数字对象的内容特征及使用条件差异性较大且易受外部环境的影响,因而权限认证长期保存元数据作为可选模块在必要时进行信息提取。
4.技术环境元数据,数字档案资源的操作系统,软硬件环境信息。要实现对数字档案资源的长期保存,须掌握不同载体信息存储环境及这些软硬件设施的生命周期。英国国家档案馆将软硬件元件、存储媒介、压缩类型等作为数字对象实体的构成要组件。当前随着数字化技术的深入发展,技术环境长期保存元数据对于数字档案资源长期保存的影响与日俱增,在保存元数据框架体系中已逐渐成为包括PRONOM在内的各大系统的必选元素。
(二)保存元数据的创建与维护
保存元数据的创建与维护是保存元数据方案的价值体现。长期保存元数据的创建即根据既定的格式规范对长期保存元数据元素的信息进行提取,长期保存元数据的维护则是涉及数字对象生命周期各个环节的一项工作。英国国家档案馆数字档案资源长期保存元数据的创建及维护主要是通过PRONOM来实现的。PRONOM的主要功能是:(1)一个数字对象进入登记系统,通过数字记录对象识别工具DROID(Digital Re? cord Object Identification,DROID)对其进行格式识别(见图2)。(2)DROID对识别后的格式信息进行属性抽取,包括表征特征和内容特征,系统会赋予其PRO? NOM唯一标识符(PRONOM Unique Identifiers,PUIDs)。(3)制定保存计划,包括风险测评、技术检测、影响因子评估、迁移路径生成几个模块。(4)实施迁移,迁移时会产生相应的记录文档存入系统以证明本次迁移。同时,进行再次识别,确认和属性抽取并与迁移之前的进行比较,以保证迁移前后的一致性[13]。在这样的闭合工作流中,數字档案资源保存元数据得以不断积累和更新。
由DROID格式识别算法可知,DROID并不能直接生成保存元数据,而是通过与PRONOM存储库进行交互,使用存储在PRONOM中的签名信息来执行格式识别,在此过程中完成保存元数据元素的验证和提取,包括身份ID、上位类ID、URI、文件路径、文件名、识别方法(签名/载体/扩展名识别)、文件大小、文件类型、文件扩展名、最新修改日期、扩展不匹配警告、Hash值、文件格式计数(GUI中的Ids列)、PUID唯一标识符、Mime类型、文件格式名称、文件格式版本等[14]。DROID是英国国家档案馆开发的一款专门用于数字文件格式识别的开源工具包,可以识别超过1400种文件格式,目前已在世界范围内得到广泛应用,尤其是在文化记忆机构、政府部门及其他公共服务机构。此外,英国国家档案馆数字保存部作为英国国家档案馆数字档案资源管理的主要机构,在数字档案资源保存元数据的创建与维护方面也发挥着重要作用。
(三)保存元数据的编码方案
编码方案解决的是保存元数据信息及文档结构关系在系统中的存储问题,也是实现保存元数据自身语义化的重要一环。在保存元数据的编码方面,英国国家档案馆依据METS(Metadata Encoding and Trans? mission Standard)(XML Scheme)元数据编码和传输标准进行保存元数据的管理。XML通过文档类型定义(Document Type Definition)标准化的方式,解决了对不同格式的释读问题。具体操作过程中,DROID使用的格式识别算法及用于描述签名和记录识别过程结果的文件格式均为XML语言。
与此同时,为实现图像文件的长期保存与管理,英国国家档案馆要求在图像文件中嵌入部分保存元数据元素,这些元数据元素将通过格式化编码转化为嵌入式的XML文档存储于系统当中。根据英国国家档案馆提供的XML Schema生成的嵌入式XML文档必须是有效的。为了确保XML文档的有效性,还开发了各种针对Schema进行验证的工具,比较受欢迎的包括:Apache Xerces(xerces.apache.org)、Saxonica Sax? on EE(www.saxonica.com)、LibXmlxmllint(xmlsoft. org/xmllint.html)[15]。
(四)保存元数据方案的推广应用 英国国家档案馆作为数字档案资源长期保存实践领域的成功践行者,为确保以PRONOM系统为技术支撑的保存元数据方案的贯彻落实,促进数字档案资源的长期保存,其面向用户制定并发布了数字保存手册(Digital Preservation Handbook,DPH)[16]。该数字保存手册的内容涵盖以下八个方面:(1)简介,包括如何使用本手册、开发和致谢等;(2)数字保存简报,包括数字保存的重要性、数字档案资源保存的常见问题;(3)入门;(4)机构策略,包括机构政策和战略、协作、宣传、采购和第三方服务、审核和认证、法律合规性、风险和变更管理、员工培训和发展、标准和最佳实践、业务案例、收益、成本和影响等;(5)组织活动,包括创建数字资料、收购和评估、决策树、保留和审查、存储、传统媒体、保存计划、保存行动、访问、元数据和文档等;(6)技术解决方案和工具,包括工具、Fixity和校验、文件格式和标准、信息安全、云服务、数字取证、持久标识符等;(7)内容特定保存,包括电子期刊、移动图片和声音、网络存档等;(8)词汇表,提供了整本手册、DPC技术观察报告和网站中使用的工作定义和首字母缩略词、以最大程度地发挥使用手册或指南的使用价值[17]。
除DHP外,英国国家档案馆还出台了专门的DROID:User Guide,帮助用户安装和使用DROID,更好地存储和管理数字档案文件。DROID用戶使用指南从技术操作层面了解如何在数字文件中安装和运行DROID;解释运行结果,避免常见性失误,如文件扩展名不匹配结果的处理,默认缺省值的导出等;了解使用DROID分析文件的一些潜在驱动因素[18]。
(一)基本特征
通过上述分析,笔者认为英国国家档案馆数字档案资源长期保存元数据方案存在以下四方面特征:(1)数字对象信息特征的全方位揭示。保存元数据是对数字对象中具有保存价值的元素的取值结果。随着计算机技术的发展,档案资源的数字化形式日益丰富,存储类型逐渐多元化,与之相应的保存元数据的取值过程也更加复杂。英国国家档案馆从技术角度入手,注重对数字档案资源本身极其存储环境的全面分析,力求保存元数据元素信息的完整性。(2)保存元数据创建与维护技术的探索与突破。为实现数字档案资源的长期保存,英国国家档案馆数字保存部专门开发了档案资源的数字格式登记与监护系统PRONOM,并开发了DROID等一系列配套技术工具,为英国国家档案馆数字档案资源元数据的创建与维护提供了有力的技术支撑。(3)保存元数据编码的结构化、语义化表达。英国国家档案馆在保存元数据编码方面采用了通用且易于扩展的XML Scheme元数据编码和传输标准,强调对数字对象内部结构关系的语义化表达。(4)保存元数据方案的持续宣贯落实。英国国家档案馆注重保存元数据方案的长效运营,制定了专门的数字保存手册DPH及DROID用户使用指南等,向广大用户普及数字档案资源长期保存的重要性,保存元数据创建的基础知识,PRONOM的功能和作用等。除此之外,还针对用户提供相关问题的实时咨询服务。相关政策规则的制定保障了元数据长期保存的稳定性和连贯性,也反映了英国国家档案馆保存元数据活动的成熟度。
(二)启示
1.注重数字档案资源保存信息特征的细粒度揭示。保存元数据的完整性是确立保存元数据框架体系的基础,也是制定保存元数据方案的关键步骤。要实现数字档案资源的长期保存,在保存元数据取值的过程中,不仅要关注数字档案资源内容本身,还需对其所处的技术环境、格式类型等进行全面把握。这就要求数字档案资源保存元数据框架体系在内容模块设计上更加系统化,并且在元素提取上更加精确,以提高保存元数据的信息揭示程度。从保存元数据框架的内容构成来看,档案管理机构及相关部门可从以下几方面考虑:描述性长期保存元数据体现了数字档案资源的内容价值,是数字档案资源长期保存元数据的核心组成部分,也是保存元数据方案的必备模块。格式属性长期保存元数据也成了数字档案资源长期保存元数据方案的重要组成部分。技术长期保存元数据对于数字档案资源长期保存的影响日益明显,英国国家档案馆尤其强调对数字档案资源所处技术环境的把握,并从中提取相关长期保存元数据元素,技术长期保存元数据将逐渐成为数字档案资源长期保存元数据方案不可忽视的部分。除上述内容外,各档案机构还可根据自身需求将权限认证、数字化过程等元素纳入保存元数据内容框架中。
2.加强保存元数据监护平台的本土化研发与应用。保存元数据方案的有效运行离不开技术平台的支持。由已有研究成果可知,当前保存元数据技术在快速发展的同时,不同国家和地区呈现出较明显的差异性,先进技术的研发及应用依然集中在英美澳等少数发达国家。通过英国国家档案馆案例可知,数字档案资源保存元数据技术的开发有别于一般数字资源保存元数据技术,这是由档案资源本身的特点所决定的。不同机构的数字档案资源存储情况通常具有较大的差异性。因此,在数字档案资源长期保存元数据技术发展方面:(1)客观分析机构资源分布情况,根据资源结构及特点进行系统功能设计。(2)充分调研用户需求,让用户参与到系统建设和平台搭建过程中,注重平台的长效运营。(3)注重引进国外先进技术及管理理念,对符合需求且发展成熟的开源技术工具的引进或二次开发可大大降低系统开发成本,在平台运营上可借鉴英国国家档案馆理念,开发与应用相结合,开发以应用为目的,同时注重接收用户反馈,不断完善系统功能。
3.推进数字档案资源保存元数据编码功能的完善。数字档案资源保存元数据编码功能完善的重点是要解决异构信息系统之间在交换格式、标记格式、编码规则、元素语义内容等方面的互操作问题。目前,保存元数据基本采用XML/RDF语言作为标记语言,采用METS/SOAP格式作为交换格式,这两方面的互操作相对容易实现。但元数据语义内容的转化通常会涉及自然语言处理、语义关联及深度语义挖掘等问题,这对于档案学科领域的研究者和实践单位而言都相对比较困难。因而,在我国数字档案资源长期保存元数据方案的制定过程中,应积极推进保存元数据编码功能的完善,尤其应在保存元数据元素结构、语义互操作及编码规则等方面加大投入力度。同时,还应围绕技术开发等问题积极开展跨部门协同研究,实现元数据编码技术的融合应用,合理调配资源,降低研发成本。 4.夯实数字档案资源保存元数据方案的宣贯工作。宣贯落实是将数字档案资源长期保存元数据方案投入实践、发挥效益的重要保障。宣贯落实的关键在于规范化、常规化地开展数字档案资源长期保存元数据管理的宣传教育工作。目前,很多机构在开展数字档案资源长期保存元数据管理工作的过程中存在重设计、轻运营的问题,管理方案或系统平台开发设计完成之后往往会因为后续的用户宣传培训工作未做到位而使整个方案的实施大打折扣。英国国家档案馆在这方面为很多领域机构提供了宝贵的实践经验,例如,我国数字档案资源长期保存元数据方案实施过程中可从用户需求出发,注重用户技能培训,制定详细的工具使用手册和系统宣传资料。同时向用户开放数字档案资源长期保存元数据的创建和维护步骤,以提高用户体验。还应根据我国数字档案资源发展的实际情况,制定自上而下的政策规范,保障长期保存元数据宣贯工作的顺利推进。
总之,本研究从数字档案资源长期保存的实际需求出发,针对案例和国情做分析,强调国外数字档案资源保存元数据管理实践经验的本土化,确立具有中国特色的数字档案资源长期保存元数据方案体制。对国外成功实践案例英国国家档案馆数字档案资源长期保存元数据方案进行了全面而深入的分析。经研究发现,英国国家档案馆作为英国国家层面的档案管理机构,对数字档案资源的长期保存问题给予了高度关注。英国国家档案馆设有专门的数字保存部门,在数字档案资源长期保存元数据内容设计、系统开发、元数据编码及方案的推广实施方面都取得了一定的成效,积累了丰富的实践经验。目前,国内学界有关数字档案资源长期保存元数据的研究尚处于起步阶段且研究成果比较零散,研究内容呈点状分布未形成理论体系。在业界,对数字档案资源长期保存元数据方案的关注大多停留在宣传设计层面,系统应用实践发展尚不成熟。因此,未来我国数字档案资源长期保存元数据方案的制定及推行一方面有赖于政府、学界和业界的支持,另一方面也可将英国国家档案馆等国外成功实践案例作为参考依据,节约建设成本。
*本文系教育部人文社会科学青年基金项目“我国科学数据引用标准化的实现路径研究”(项目编号:20YJC870007)研究成果之一。
注释及参考文献:
[1]NISOWebinar: MetadataforPreservation: ADigi? talObject’sBestFriend[EB/OL].2019- 08- 18].http://www. niso.org/news/events/2013/webinars/preservation/.
[2]Caplan P. Preservation Metadata[EB/OL].[2019-08- 23]. http: / /www. dcc. ac. uk/resources/curationref- erence- manual / completed- chapters / preserva? tion-metadata.
[3]KrewerD , Mullins J . Current Approaches to Im? plementing Preservation Metadata. A Report of the ALCTS PARS Preservation Metadata Interest Group Meeting. American Library Association Annual Confer? ence, Orlando, June 2016[J].Technical Services Quarterly, 2017, 34(2):194-198.
[4]張晓娟,唐长乐.数字信息资源长期保存元数据技术研究进展[J].情报科学, 2018,36(8):3-9.
[5]周丽霞,朱德红.数字档案馆数字资源长期保存涉及的元数据内容[J].黑龙江档案, 2013(3):17.
[6]周丽霞,朱德红.基于OAIS信息模型的数字档案馆元数据体系设计[J].档案学研究, 2013(1):61-65.
[7]张晓娟,唐长乐.管理视角下数字信息资源长期保存元数据研究进展[J].图书情报知识,2019(3):43-52.
[8]程妍妍,陈洋.国际数字档案馆元数据标准及其项目研究[J].档案管理, 2014(6):38-40.
[9]孙毛毛.基于OAIS元数据模型的数字档案管理系统研究[J].兰台世界, 2012(35):29-30.
[10]吴申艳.基于数字档案长期保存的元数据需求及建设策略研究[J].档案管理, 2017(6):42-44.
[11]TraczykT ,GrzegorzP oszajski. Metadata in CRE? DO long -term archive [M] // Digital Preservation: Put? ting It to Work. Springer International Publishing, 2017.
[12]程妍妍.数字档案馆元数据迁移研究[J].档案管理, 2016(4):17-19.
[13]张宁,杨敬敬.国外典型数字格式登记系统比较研究——以PRONOM、GDFR与UDFR为例[J].北京档案, 2015(9):17-20.
[14][18]DROID: user guide [EB/OL].[2019-7-4]. http: //www.nationalarchives.gov.uk/documents/infor? mation-management/droid-user-guide.pdf.
[15]Digitisation at The National Archives [EB/OL].[2019-7-3]. http://nationalarchives.gov.uk/documents/ information-management/digitisation-at-the-nationalarchives.pdf.
[16]Digital Preservation Handbook [EB/OL].[2019-6-28].https://www.dpconline.org/handbook/contents.
[17]Glossary[EB/OL]. [2019 - 7 - 4].https://www. dpconline.org/handbook/glossary.
作者单位:湖北大学历史文化学院
关键词:保存元数据 数字档案资源 长期保存英国国家档案馆
保存元数据对数字档案资源的长期保存至关重要,学界和业界关于保存元数据的研究和探索也一直在持续。为支持数字档案资源的长期保存,早在1995年5月,国际空间数据系统咨询委员会(Consultative Committee for Space Data Systems,CCSDS)就制定了开放档案信息系统(Reference Model for an Open Archival Information System,OAIS)参考模型,该模型于2003年最终作为ISO标准(IS014721: 2003)颁发,提供了数字档案资源长期保存和利用的基本概念、术语、元数据框架和功能模型。继而,美国国家档案馆、澳大利亚、英国国家档案馆相继开展了实践探索。2013年1月,美国国家信息标准委员会(National In? formation Standards Organization,NISO)以“保存元数据:数字对象的最佳朋友”为主题召开网络研讨会,以PREMIS的研究与实践为基础,探讨数字信息资源保存元数据的发展问题[1];英国科学数据管理中心( Digital Curation Center,DCC)在其科学数据管理参考手册中专设一章,对科学数据管理中的保存元数据相关问题进行了阐述[2]。2016年美国图书馆协会(American Library Association,ALA)在奥兰多举办年会,会上专门探讨了图书馆、档案馆等机构保存元数据方案的实施方法并举行了ALCTS PARS保存元数据兴趣小组会议报告[3]。2018年以来,随着政府对数字档案资源的长期保存问题的日益重视,保存元数据作为数字档案资源得以长期保存的关键因素也受到业界的普遍关注。
一、数字档案资源长期保存元数据研究现状
笔者对国内外相关文献进行调研和梳理,发现关于数字档案资源长期保存主题的研究由来已久,但对数字档案资源长期保存元数据(Preservation Metadata)的关注度仍较低,研究成果所涉及的问题相对比较零散。通过总结分析,笔者将数字档案资源长期保存元数据研究归纳为以下几个方面:(1)关于数字档案资源长期保存元数据技术的研究。张晓娟等梳理了数字信息资源长期保存元数据技术的研究进展,指出未来研究将聚焦在保存元数据自动化生成和封装保存,基于本体的语义互操作和多种语义技术融合方面[4]。(2)关于数字档案资源长期保存元数据内容框架的研究。周丽霞等探讨了数字档案资源长期保存涉及的元数据内容,具体包括档案信息内容元数据、档案作品与对象元数据、资源集合元数据、管理与服务机制元数据、管理过程与系统元数据及档案元数据六个层次[5]。其还提出了基于OAIS信息模型的数字档案馆元数据体系[6]。(3)关于数字档案资源长期保存元数据标准的研究。张晓娟等从管理的角度出发,围绕保存元数据的概念、PREMIS保存元数据标准框架和保存元数据质量评估,对包括数字档案资源在内的数字信息资源的长期保存元数据研究动态进行梳理与总结[7]。程妍妍等对目前国际数字档案馆应用的三类元数据标准(文件管理元数据标准、著录元数据标准、长久保存元数据标准)及其项目进行调研,认为以文件元数据为主体的标准体系初步形成,元数据标准模型的兼容性不断增强[8]。孙毛毛探讨了国际标准OAIS元数据参照模型在数字档案管理系统中的设计与实现问题[9]。(4)关于数字档案资源长期保存元数据策略的研究。吴申燕提出基于数字档案资源长期保存的元数据建设策略:元数据标准规范化,增强元数据对数字档案对象的识别能力和捕获能力,重视元数据的捕获能力,重视对元数据的管理等[10]。Tomas等以CREDO为例,针对数字档案资源长期存档过程中保存元数据的维护做了系统研究[11]。程妍妍针对数字档案资源长期保存元数据迁移问题进行了探讨,提出应重点对内容、背景、结构和系统元数据进行迁移并在迁移计划中纳入元数据迁移方案,迁移流程中采取元数
据质量控制等实施策略[12]。
如前所述,当前英美澳等国在数字档案资源长期保存元数据实践方面发展较成熟,其保存元数据方案已取得较好的应用成效。而国内在数字档案资源长期保存元数据等研究及实践尚处于起步阶段,针对案例的深入分析更加少见,笔者以英国国家档案馆的数字档案资源长期保存元数据方案为例展开讨论,通过实例分析为国内相关领域的研究和实践提供参考。
二、英国国家档案馆数字资源长期保存元数据方案分析
(一)保存元数据的内容框架
元数据内容是保存元数据方案的核心,英国国家档案馆强调对数字档案资源内容特征和表征特征(存储格式、知识产权、软硬件环境等)的全面揭示与长期保存。其开发了数字文件格式登记系统PRONOM,用于数字档案资源保存元数据的创建与维护,该系统通过数据建模的方式模拟数字对象本体及其运行环境(见图1)。
根據PRONOM数据模型,其长期保存元数据框架主要由内容描述元数据、格式属性元数据、权限认证元数据、技术环境元数据等构成(见表1)。
1.内容描述元数据,对数字档案资源内容信息的揭示。它体现了资源内容的价值,使得数字档案资源的有用性得以长期维持与充分发挥,是数字档案资源长期保存元数据方案不可或缺的组成部分。因而,内容描述长期保存元数据在模块属性上属于必选模块。英国国家档案馆在资源内容方面除通过保存元数据揭示数字档案资源各单元内容之外,还比较重视对不同单元间内在关系的描述和揭示,不断完善内容描述长期保存元数据在数字档案资源长期保存过程中的语义关联功能。
2.格式属性元数据,对数字档案资源文件格式属性的描述、识别、记录和保存。这是英国国家档案馆数字档案长期保存元数据方案的特色和优势所在。PRONOM将数字对象的格式定义为数字对象的内部结构和编码,允许对其进行处理,或以人类可访问的形式呈现。同时对数字档案资源的格式属性长期保存元数据做了明确界定,认为一个数字对象的文件格式应通过包括内外部签名、压缩类型、字符编码、文件分类、相关组件及其子集来进行模拟编码。目前,英国国家档案馆将格式属性长期保存元数据作为保存元数据框架的必选模块。
3.权限认证元数据,数字档案资源的版权信息和检索控制条件。英国国家档案馆主要通过IPR实体模块来实现数字档案资源的版权认证。检索控制条件则包含在内外部签名等实体模块中。由于不同数字对象的内容特征及使用条件差异性较大且易受外部环境的影响,因而权限认证长期保存元数据作为可选模块在必要时进行信息提取。
4.技术环境元数据,数字档案资源的操作系统,软硬件环境信息。要实现对数字档案资源的长期保存,须掌握不同载体信息存储环境及这些软硬件设施的生命周期。英国国家档案馆将软硬件元件、存储媒介、压缩类型等作为数字对象实体的构成要组件。当前随着数字化技术的深入发展,技术环境长期保存元数据对于数字档案资源长期保存的影响与日俱增,在保存元数据框架体系中已逐渐成为包括PRONOM在内的各大系统的必选元素。
(二)保存元数据的创建与维护
保存元数据的创建与维护是保存元数据方案的价值体现。长期保存元数据的创建即根据既定的格式规范对长期保存元数据元素的信息进行提取,长期保存元数据的维护则是涉及数字对象生命周期各个环节的一项工作。英国国家档案馆数字档案资源长期保存元数据的创建及维护主要是通过PRONOM来实现的。PRONOM的主要功能是:(1)一个数字对象进入登记系统,通过数字记录对象识别工具DROID(Digital Re? cord Object Identification,DROID)对其进行格式识别(见图2)。(2)DROID对识别后的格式信息进行属性抽取,包括表征特征和内容特征,系统会赋予其PRO? NOM唯一标识符(PRONOM Unique Identifiers,PUIDs)。(3)制定保存计划,包括风险测评、技术检测、影响因子评估、迁移路径生成几个模块。(4)实施迁移,迁移时会产生相应的记录文档存入系统以证明本次迁移。同时,进行再次识别,确认和属性抽取并与迁移之前的进行比较,以保证迁移前后的一致性[13]。在这样的闭合工作流中,數字档案资源保存元数据得以不断积累和更新。
由DROID格式识别算法可知,DROID并不能直接生成保存元数据,而是通过与PRONOM存储库进行交互,使用存储在PRONOM中的签名信息来执行格式识别,在此过程中完成保存元数据元素的验证和提取,包括身份ID、上位类ID、URI、文件路径、文件名、识别方法(签名/载体/扩展名识别)、文件大小、文件类型、文件扩展名、最新修改日期、扩展不匹配警告、Hash值、文件格式计数(GUI中的Ids列)、PUID唯一标识符、Mime类型、文件格式名称、文件格式版本等[14]。DROID是英国国家档案馆开发的一款专门用于数字文件格式识别的开源工具包,可以识别超过1400种文件格式,目前已在世界范围内得到广泛应用,尤其是在文化记忆机构、政府部门及其他公共服务机构。此外,英国国家档案馆数字保存部作为英国国家档案馆数字档案资源管理的主要机构,在数字档案资源保存元数据的创建与维护方面也发挥着重要作用。
(三)保存元数据的编码方案
编码方案解决的是保存元数据信息及文档结构关系在系统中的存储问题,也是实现保存元数据自身语义化的重要一环。在保存元数据的编码方面,英国国家档案馆依据METS(Metadata Encoding and Trans? mission Standard)(XML Scheme)元数据编码和传输标准进行保存元数据的管理。XML通过文档类型定义(Document Type Definition)标准化的方式,解决了对不同格式的释读问题。具体操作过程中,DROID使用的格式识别算法及用于描述签名和记录识别过程结果的文件格式均为XML语言。
与此同时,为实现图像文件的长期保存与管理,英国国家档案馆要求在图像文件中嵌入部分保存元数据元素,这些元数据元素将通过格式化编码转化为嵌入式的XML文档存储于系统当中。根据英国国家档案馆提供的XML Schema生成的嵌入式XML文档必须是有效的。为了确保XML文档的有效性,还开发了各种针对Schema进行验证的工具,比较受欢迎的包括:Apache Xerces(xerces.apache.org)、Saxonica Sax? on EE(www.saxonica.com)、LibXmlxmllint(xmlsoft. org/xmllint.html)[15]。
(四)保存元数据方案的推广应用 英国国家档案馆作为数字档案资源长期保存实践领域的成功践行者,为确保以PRONOM系统为技术支撑的保存元数据方案的贯彻落实,促进数字档案资源的长期保存,其面向用户制定并发布了数字保存手册(Digital Preservation Handbook,DPH)[16]。该数字保存手册的内容涵盖以下八个方面:(1)简介,包括如何使用本手册、开发和致谢等;(2)数字保存简报,包括数字保存的重要性、数字档案资源保存的常见问题;(3)入门;(4)机构策略,包括机构政策和战略、协作、宣传、采购和第三方服务、审核和认证、法律合规性、风险和变更管理、员工培训和发展、标准和最佳实践、业务案例、收益、成本和影响等;(5)组织活动,包括创建数字资料、收购和评估、决策树、保留和审查、存储、传统媒体、保存计划、保存行动、访问、元数据和文档等;(6)技术解决方案和工具,包括工具、Fixity和校验、文件格式和标准、信息安全、云服务、数字取证、持久标识符等;(7)内容特定保存,包括电子期刊、移动图片和声音、网络存档等;(8)词汇表,提供了整本手册、DPC技术观察报告和网站中使用的工作定义和首字母缩略词、以最大程度地发挥使用手册或指南的使用价值[17]。
除DHP外,英国国家档案馆还出台了专门的DROID:User Guide,帮助用户安装和使用DROID,更好地存储和管理数字档案文件。DROID用戶使用指南从技术操作层面了解如何在数字文件中安装和运行DROID;解释运行结果,避免常见性失误,如文件扩展名不匹配结果的处理,默认缺省值的导出等;了解使用DROID分析文件的一些潜在驱动因素[18]。
三、英国国家档案馆数字资源长期保存元数据方案基本特征及启示
(一)基本特征
通过上述分析,笔者认为英国国家档案馆数字档案资源长期保存元数据方案存在以下四方面特征:(1)数字对象信息特征的全方位揭示。保存元数据是对数字对象中具有保存价值的元素的取值结果。随着计算机技术的发展,档案资源的数字化形式日益丰富,存储类型逐渐多元化,与之相应的保存元数据的取值过程也更加复杂。英国国家档案馆从技术角度入手,注重对数字档案资源本身极其存储环境的全面分析,力求保存元数据元素信息的完整性。(2)保存元数据创建与维护技术的探索与突破。为实现数字档案资源的长期保存,英国国家档案馆数字保存部专门开发了档案资源的数字格式登记与监护系统PRONOM,并开发了DROID等一系列配套技术工具,为英国国家档案馆数字档案资源元数据的创建与维护提供了有力的技术支撑。(3)保存元数据编码的结构化、语义化表达。英国国家档案馆在保存元数据编码方面采用了通用且易于扩展的XML Scheme元数据编码和传输标准,强调对数字对象内部结构关系的语义化表达。(4)保存元数据方案的持续宣贯落实。英国国家档案馆注重保存元数据方案的长效运营,制定了专门的数字保存手册DPH及DROID用户使用指南等,向广大用户普及数字档案资源长期保存的重要性,保存元数据创建的基础知识,PRONOM的功能和作用等。除此之外,还针对用户提供相关问题的实时咨询服务。相关政策规则的制定保障了元数据长期保存的稳定性和连贯性,也反映了英国国家档案馆保存元数据活动的成熟度。
(二)启示
1.注重数字档案资源保存信息特征的细粒度揭示。保存元数据的完整性是确立保存元数据框架体系的基础,也是制定保存元数据方案的关键步骤。要实现数字档案资源的长期保存,在保存元数据取值的过程中,不仅要关注数字档案资源内容本身,还需对其所处的技术环境、格式类型等进行全面把握。这就要求数字档案资源保存元数据框架体系在内容模块设计上更加系统化,并且在元素提取上更加精确,以提高保存元数据的信息揭示程度。从保存元数据框架的内容构成来看,档案管理机构及相关部门可从以下几方面考虑:描述性长期保存元数据体现了数字档案资源的内容价值,是数字档案资源长期保存元数据的核心组成部分,也是保存元数据方案的必备模块。格式属性长期保存元数据也成了数字档案资源长期保存元数据方案的重要组成部分。技术长期保存元数据对于数字档案资源长期保存的影响日益明显,英国国家档案馆尤其强调对数字档案资源所处技术环境的把握,并从中提取相关长期保存元数据元素,技术长期保存元数据将逐渐成为数字档案资源长期保存元数据方案不可忽视的部分。除上述内容外,各档案机构还可根据自身需求将权限认证、数字化过程等元素纳入保存元数据内容框架中。
2.加强保存元数据监护平台的本土化研发与应用。保存元数据方案的有效运行离不开技术平台的支持。由已有研究成果可知,当前保存元数据技术在快速发展的同时,不同国家和地区呈现出较明显的差异性,先进技术的研发及应用依然集中在英美澳等少数发达国家。通过英国国家档案馆案例可知,数字档案资源保存元数据技术的开发有别于一般数字资源保存元数据技术,这是由档案资源本身的特点所决定的。不同机构的数字档案资源存储情况通常具有较大的差异性。因此,在数字档案资源长期保存元数据技术发展方面:(1)客观分析机构资源分布情况,根据资源结构及特点进行系统功能设计。(2)充分调研用户需求,让用户参与到系统建设和平台搭建过程中,注重平台的长效运营。(3)注重引进国外先进技术及管理理念,对符合需求且发展成熟的开源技术工具的引进或二次开发可大大降低系统开发成本,在平台运营上可借鉴英国国家档案馆理念,开发与应用相结合,开发以应用为目的,同时注重接收用户反馈,不断完善系统功能。
3.推进数字档案资源保存元数据编码功能的完善。数字档案资源保存元数据编码功能完善的重点是要解决异构信息系统之间在交换格式、标记格式、编码规则、元素语义内容等方面的互操作问题。目前,保存元数据基本采用XML/RDF语言作为标记语言,采用METS/SOAP格式作为交换格式,这两方面的互操作相对容易实现。但元数据语义内容的转化通常会涉及自然语言处理、语义关联及深度语义挖掘等问题,这对于档案学科领域的研究者和实践单位而言都相对比较困难。因而,在我国数字档案资源长期保存元数据方案的制定过程中,应积极推进保存元数据编码功能的完善,尤其应在保存元数据元素结构、语义互操作及编码规则等方面加大投入力度。同时,还应围绕技术开发等问题积极开展跨部门协同研究,实现元数据编码技术的融合应用,合理调配资源,降低研发成本。 4.夯实数字档案资源保存元数据方案的宣贯工作。宣贯落实是将数字档案资源长期保存元数据方案投入实践、发挥效益的重要保障。宣贯落实的关键在于规范化、常规化地开展数字档案资源长期保存元数据管理的宣传教育工作。目前,很多机构在开展数字档案资源长期保存元数据管理工作的过程中存在重设计、轻运营的问题,管理方案或系统平台开发设计完成之后往往会因为后续的用户宣传培训工作未做到位而使整个方案的实施大打折扣。英国国家档案馆在这方面为很多领域机构提供了宝贵的实践经验,例如,我国数字档案资源长期保存元数据方案实施过程中可从用户需求出发,注重用户技能培训,制定详细的工具使用手册和系统宣传资料。同时向用户开放数字档案资源长期保存元数据的创建和维护步骤,以提高用户体验。还应根据我国数字档案资源发展的实际情况,制定自上而下的政策规范,保障长期保存元数据宣贯工作的顺利推进。
总之,本研究从数字档案资源长期保存的实际需求出发,针对案例和国情做分析,强调国外数字档案资源保存元数据管理实践经验的本土化,确立具有中国特色的数字档案资源长期保存元数据方案体制。对国外成功实践案例英国国家档案馆数字档案资源长期保存元数据方案进行了全面而深入的分析。经研究发现,英国国家档案馆作为英国国家层面的档案管理机构,对数字档案资源的长期保存问题给予了高度关注。英国国家档案馆设有专门的数字保存部门,在数字档案资源长期保存元数据内容设计、系统开发、元数据编码及方案的推广实施方面都取得了一定的成效,积累了丰富的实践经验。目前,国内学界有关数字档案资源长期保存元数据的研究尚处于起步阶段且研究成果比较零散,研究内容呈点状分布未形成理论体系。在业界,对数字档案资源长期保存元数据方案的关注大多停留在宣传设计层面,系统应用实践发展尚不成熟。因此,未来我国数字档案资源长期保存元数据方案的制定及推行一方面有赖于政府、学界和业界的支持,另一方面也可将英国国家档案馆等国外成功实践案例作为参考依据,节约建设成本。
*本文系教育部人文社会科学青年基金项目“我国科学数据引用标准化的实现路径研究”(项目编号:20YJC870007)研究成果之一。
注释及参考文献:
[1]NISOWebinar: MetadataforPreservation: ADigi? talObject’sBestFriend[EB/OL].2019- 08- 18].http://www. niso.org/news/events/2013/webinars/preservation/.
[2]Caplan P. Preservation Metadata[EB/OL].[2019-08- 23]. http: / /www. dcc. ac. uk/resources/curationref- erence- manual / completed- chapters / preserva? tion-metadata.
[3]KrewerD , Mullins J . Current Approaches to Im? plementing Preservation Metadata. A Report of the ALCTS PARS Preservation Metadata Interest Group Meeting. American Library Association Annual Confer? ence, Orlando, June 2016[J].Technical Services Quarterly, 2017, 34(2):194-198.
[4]張晓娟,唐长乐.数字信息资源长期保存元数据技术研究进展[J].情报科学, 2018,36(8):3-9.
[5]周丽霞,朱德红.数字档案馆数字资源长期保存涉及的元数据内容[J].黑龙江档案, 2013(3):17.
[6]周丽霞,朱德红.基于OAIS信息模型的数字档案馆元数据体系设计[J].档案学研究, 2013(1):61-65.
[7]张晓娟,唐长乐.管理视角下数字信息资源长期保存元数据研究进展[J].图书情报知识,2019(3):43-52.
[8]程妍妍,陈洋.国际数字档案馆元数据标准及其项目研究[J].档案管理, 2014(6):38-40.
[9]孙毛毛.基于OAIS元数据模型的数字档案管理系统研究[J].兰台世界, 2012(35):29-30.
[10]吴申艳.基于数字档案长期保存的元数据需求及建设策略研究[J].档案管理, 2017(6):42-44.
[11]TraczykT ,GrzegorzP oszajski. Metadata in CRE? DO long -term archive [M] // Digital Preservation: Put? ting It to Work. Springer International Publishing, 2017.
[12]程妍妍.数字档案馆元数据迁移研究[J].档案管理, 2016(4):17-19.
[13]张宁,杨敬敬.国外典型数字格式登记系统比较研究——以PRONOM、GDFR与UDFR为例[J].北京档案, 2015(9):17-20.
[14][18]DROID: user guide [EB/OL].[2019-7-4]. http: //www.nationalarchives.gov.uk/documents/infor? mation-management/droid-user-guide.pdf.
[15]Digitisation at The National Archives [EB/OL].[2019-7-3]. http://nationalarchives.gov.uk/documents/ information-management/digitisation-at-the-nationalarchives.pdf.
[16]Digital Preservation Handbook [EB/OL].[2019-6-28].https://www.dpconline.org/handbook/contents.
[17]Glossary[EB/OL]. [2019 - 7 - 4].https://www. dpconline.org/handbook/glossary.
作者单位:湖北大学历史文化学院