论文部分内容阅读
摘 要 仓储式长期保存系统DAITSS适用于建立已有数字资源环境的长期保存。论文基于对DAITSS数字资源长期保存系统的存储特性的研究,介绍了DAITSS保存系统的七个耦合服务模块,并探讨了其主要服务模块核心工作界面的功能、存储流程和存储资源的管理方式等,结合该系统的存储特点分析了DAITSS长期保存系统应用于苏州大学本地资源保存的可靠性和有效性。
关键词 DAITSS 数字资源长期保存 核心服务 存储管理
分类号 G250.7
Preliminary Study on the DAITSS Core Interface and Data Storage
Yuan Xiaoming, Gu Yurong, Wang Fei
Abstract Repository preservation system DAITSS is used for archiving organizations in existing digital resources environment. Based on the research of the DAITSS digital resources preservation, this paper introduces the seven service modules of DATSS, discusses the interface of the core service, the storage processes and the management methods of digital resources. Combined with the system storage features, it analyzes the reliability and validity of applying DAITSS in Suzhou University.
Keywords DAITSS. Digital Resources Long-term Preservation. Core services. Storage management.
目前,国内外已经开发出多种基于开放档案信息系统(OAIS)模型的数字资源长期保存系统,其中,DAITSS系统以其仓储式存储体系、规范化格式迁移及松耦合的模块化结构受到了越来越多的关注。本文拟对DAITSS的模块进行解析,并利用示例数据包对其核心内容——核心界面和存储管理两个模块进行具体分析,就该系统的权限、数据管理和实际应用进行初步探讨。
1 DAITSS系统模块概述
1.1 DAITSS简介
DAITSS(Dark Archive In The Sunshine State)是由佛罗里达图书馆自动化中心研究开发,并为佛罗里达州的11所公立大学图书馆提供数字资源库长期保存服务的一种开源长期保存系统。DAITSS作为一种机构仓储式后台保存系统,不提供用户直接访问接口,也被称为“黑色档案保存系统”。其区别于其他保存系统的最显著特点是:允许其成员机构通过授权的分发请求获取资源,但不提供获取其他用户保存的数字资源;不支持数字资源数据的采集,旨在对已有数字资源环境实现长期保存。
DAITSS系统通过将提交信息包(SIP)转化成一个可长期保存的档案信息包(AIP)实现数字资源的长期保存,不仅为数字资源提供了数据保存、管理和获取的仓储功能,更实现了数字资源格式规范化和格式迁移的积极保存策略[1]。其对存储机构所保存的资源规范化为开放的、基于XML格式的数据,并以最新的版本(如提交的word2003版本更新为word2010版)或后继格式的版本存储。目前,DAITSS系统可以识别超过600个文件格式并完全支持(即可以分析、描述并根据需要转换)其中的十几种常用格式,可实现文字、图片、音频及视频等格式数据的保存及规范。弗罗里达数字档案馆自2006年投入使用DAITSS长期保存系统以来,至2011年6月已摄取了29万个数据包,包括了3910万个文件,单一副本的存储量达87TB[2]。2010年起开发团队实现了将DAITSS v.1.x升级为DAITSS v.2版本,设计模块化和功能上的升级更方便了用户的使用配置和服务定制。
1.2 DAITSS服务模块
DAITSS v.2采用面向服务的架构,对单一的系统采用模块相互耦合作用进行数据包的处理。DAITSS系统的数据处理模块包括DAITSS核心界面(DAITSS Core)、病毒检测服务(Virus check)、描述服务(description)、行动规划服务(Action plan)、格式转换服务(Transformation)、XML解析服务(XML resolution)和存储管理(Storage)等七个模块,其具体结构及在数据保存处理中所起作用如图1所示。
图1 DAITSS v.2模块体系及存档流程[3]
DAITSS保存系统的存档流程为:将需要存储的文档及其Mets文件以信息的形式提交至系统界面,信息包进入DAITSS的存档工作区之后,保存系统通过调用数据处理模块检测提交信息包是否有效,结构是否完整,并在存档过程发送数据包,直至数据包以AIP的形式存储于系统数据库中。在数据包存档过程中,DAITSS Core和存储服务是数据资源的提交、存储的主要服务模块,并提供了管理和获取资源的对话界面,其余五个模块则为数据包在提交存储过程中后台调用程序。
(1)DAITSS Core是执行不同功能脚本和程序集合的面对用户的Web页面,其实现保存机构的数字资源提交、请求及管理操作功能,也是管理员对提交的数据包存储和管理的界面。
(2)病毒检测服务对提交至工作区的每个数据包文件进行病毒检测。若发现病毒,整个数据包将会复制到保存区等待管理员的处理;没有病毒的数据包则释放到下一步处理进程。
关键词 DAITSS 数字资源长期保存 核心服务 存储管理
分类号 G250.7
Preliminary Study on the DAITSS Core Interface and Data Storage
Yuan Xiaoming, Gu Yurong, Wang Fei
Abstract Repository preservation system DAITSS is used for archiving organizations in existing digital resources environment. Based on the research of the DAITSS digital resources preservation, this paper introduces the seven service modules of DATSS, discusses the interface of the core service, the storage processes and the management methods of digital resources. Combined with the system storage features, it analyzes the reliability and validity of applying DAITSS in Suzhou University.
Keywords DAITSS. Digital Resources Long-term Preservation. Core services. Storage management.
目前,国内外已经开发出多种基于开放档案信息系统(OAIS)模型的数字资源长期保存系统,其中,DAITSS系统以其仓储式存储体系、规范化格式迁移及松耦合的模块化结构受到了越来越多的关注。本文拟对DAITSS的模块进行解析,并利用示例数据包对其核心内容——核心界面和存储管理两个模块进行具体分析,就该系统的权限、数据管理和实际应用进行初步探讨。
1 DAITSS系统模块概述
1.1 DAITSS简介
DAITSS(Dark Archive In The Sunshine State)是由佛罗里达图书馆自动化中心研究开发,并为佛罗里达州的11所公立大学图书馆提供数字资源库长期保存服务的一种开源长期保存系统。DAITSS作为一种机构仓储式后台保存系统,不提供用户直接访问接口,也被称为“黑色档案保存系统”。其区别于其他保存系统的最显著特点是:允许其成员机构通过授权的分发请求获取资源,但不提供获取其他用户保存的数字资源;不支持数字资源数据的采集,旨在对已有数字资源环境实现长期保存。
DAITSS系统通过将提交信息包(SIP)转化成一个可长期保存的档案信息包(AIP)实现数字资源的长期保存,不仅为数字资源提供了数据保存、管理和获取的仓储功能,更实现了数字资源格式规范化和格式迁移的积极保存策略[1]。其对存储机构所保存的资源规范化为开放的、基于XML格式的数据,并以最新的版本(如提交的word2003版本更新为word2010版)或后继格式的版本存储。目前,DAITSS系统可以识别超过600个文件格式并完全支持(即可以分析、描述并根据需要转换)其中的十几种常用格式,可实现文字、图片、音频及视频等格式数据的保存及规范。弗罗里达数字档案馆自2006年投入使用DAITSS长期保存系统以来,至2011年6月已摄取了29万个数据包,包括了3910万个文件,单一副本的存储量达87TB[2]。2010年起开发团队实现了将DAITSS v.1.x升级为DAITSS v.2版本,设计模块化和功能上的升级更方便了用户的使用配置和服务定制。
1.2 DAITSS服务模块
DAITSS v.2采用面向服务的架构,对单一的系统采用模块相互耦合作用进行数据包的处理。DAITSS系统的数据处理模块包括DAITSS核心界面(DAITSS Core)、病毒检测服务(Virus check)、描述服务(description)、行动规划服务(Action plan)、格式转换服务(Transformation)、XML解析服务(XML resolution)和存储管理(Storage)等七个模块,其具体结构及在数据保存处理中所起作用如图1所示。
图1 DAITSS v.2模块体系及存档流程[3]
DAITSS保存系统的存档流程为:将需要存储的文档及其Mets文件以信息的形式提交至系统界面,信息包进入DAITSS的存档工作区之后,保存系统通过调用数据处理模块检测提交信息包是否有效,结构是否完整,并在存档过程发送数据包,直至数据包以AIP的形式存储于系统数据库中。在数据包存档过程中,DAITSS Core和存储服务是数据资源的提交、存储的主要服务模块,并提供了管理和获取资源的对话界面,其余五个模块则为数据包在提交存储过程中后台调用程序。
(1)DAITSS Core是执行不同功能脚本和程序集合的面对用户的Web页面,其实现保存机构的数字资源提交、请求及管理操作功能,也是管理员对提交的数据包存储和管理的界面。
(2)病毒检测服务对提交至工作区的每个数据包文件进行病毒检测。若发现病毒,整个数据包将会复制到保存区等待管理员的处理;没有病毒的数据包则释放到下一步处理进程。