论文部分内容阅读
摘要:档案是重要的社会信息资源,传统档案馆作为社会信息资源系统的一个重要组成部分,正面临着数字化时代的挑战。本文从馆藏档案数字化的内容、流程、策略、要求等方面,分析了数字档案馆如何接替传统档案馆的过程。
主题词:数字档案馆 传统档案馆 档案数字化
数字档案馆的信息资源建设包括原始馆藏的数字化和网络信息数据库。原始馆藏的数字化是将馆藏档案转化成计算机可以识别和处理的数字化信息,经过整理和组织,存储在存储设备里。网络信息数据库是指实现数字化后的信息资源分布在网络服务器中,通过网络互联提供资源共享。数字档案馆是管理档案信息的"信息中心",档案的实体保管模式应该向档案信息化管理模式过渡。而数字档案馆的档案信息资源建设的首要任务就是如何将传统档案馆的原始馆藏数字化,亦即数字档案馆如何接替传统档案馆的原始馆藏,这是由传统档案馆向数字档案馆转型过程中的一个关键性问题。要解决这一问题,涉及一系列工作内容、技术与理论问题,诸如数字化采集设备的选择,数字文件格式的选择,文件存储系统的建立等。下面从以下四方面分析数字档案馆如何接替传统档案馆的过程。
一、馆藏档案数字化的工作内容
馆藏档案数字化工作内容从流程上分主要包括两项:一是将传统载体档案目录进行数字化,二是将档案内容进行数字化。
1.档案目录数字化的主要工作是对载体档案进行编目,并将目录信息录入到计算机中,建立档案目录数据库,利用管理信息系统实现档案目录数据的计算机管理和目录信息的资源共享。
2.档案内容数字化的主要工作是馆藏的纸质、照片、录音、录像、缩微等档案,通过扫描、加工、处理(包括去污处理、图像处理、OCR等),转变为文本、图像、图形、流媒体等数字格式的信息,存储在网络服务器中,利用计算机及信息系统提供查询、检索和浏览。
馆藏档案数字化工作内容从形式上主要可分为四种:纸质档案、音频档案、视频档案和缩微胶片等。
二、档案数字化的业务流程
一般来说,档案数字化业务流程可以分为以下几个过程:数字化预处理、数字化加工/转换、信息处理、信息存储、信息发布与信息利用等几个核心过程[1]。由于要数字化的档案形式不同,有纸质、音频、视频、缩微四种,因此在实际数字化时具体工作流程会不同。有关详细的、具体化的流程可参见相应的国家标准,如《纸质档案数字化技术规范》、《视、音频档案数字化技术规范》(征求意见稿)等。
1.数字化预处理
预处理是数字化加工的第一个环节,主要工作是将实物档案,如纸质档案、录音录像等按照数字化加工的轻重缓急原则,进行筛选,然后,再按照下一步数字化处理工作的具体要求做拆卷、分类、整理、模数转换等处理工作。
2.数字化加工与转换
是将传统载体的档案转换为以数字形式表示的档案信息资源,主要工作有:扫描、数码拍照、录音录像档案的数字化转换等。这一阶段需要重点加强对破损程度比较严重的、纸质又很薄的、很难直接进行扫描或者无法采取扫描方式进行数字化的历史档案的处理。主要采取的措施:一是根据实际情况做一些特殊的保护处理,或者变换方式如采用数码相机拍照然后再加载到计算机系统中,但绝不可以损坏原件;二是在扫描加工时应考虑一次扫描、多次使用、全信息捕获的基本原则,尽量在扫描前充分考虑档案的利用目的,避免多次重復扫描加工。因为每次扫描加工不仅花费人力、物力和财力,而且对档案原件也有损害。这个阶段工作过程中采取合适的扫描分辨率与模数转换等的技术参数是非常关键的。本阶段必须在大量的实践经验基础上,选择科学的、合理的数字化加工与转换的技术与指标开展工作,侧重点在于技术方案的选择与确定。
3.信息处理
本环节的工作是将数字化后的图像文件、多媒体信息等与档案的著录信息进行关联的重要过程。该过程要将图像与多媒体文件对照原始档案而进行核对、压缩及OCR图文识别。无论是纸质档案数字化后进行图文处理,如图像压缩、OCR识别等,还是录音、录像档案通过模拟到数字的转化后,都可能造成一定程度的数据丢失或信息失真,因此本阶段要重点考虑档案数字化后能够被存储、保存和提供利用,考虑如何将失真度降到最低。
4.信息存储
信息处理过程将生成关系型数据库文件、大量的电子图像和多媒体文件,这些数据需要存储在网络环境中并提供利用,而不仅仅是存储在光盘上保存在库房作档案备份。因此,应首先根据数字化存储容量及网络化提供利用的要求,选择网络存储设备、考虑数据库与电子文件的存储和被访问的方式。有关存储格式和标准已有相应的规定,如纸质文件数字化后存储格式已有标准。
5.信息利用
该阶段是将数字档案信息发布在网上,并提供不同网络范围内的不同数据内容的档案利用。利用面向两种对象--公众网用户和政务网用户。信息存储与交流利用所采取的格式是不同的。我们国家对存储格式有规定,但对利用格式没有规定。在质量可接受情况下,为实现快速方便利用可对格式进行转化,如采用占用空间较小的流媒体格式等。
三、档案数字化策略
档案信息资源要开发利用,就要对档案进行数字化处理,对档案信息资源进行组织,这一定要讲究策略,走有选择地数字化和共建共享模式两条路。
1.有选择地对馆藏档案数字化
馆藏档案浩瀚无穷,该如何选择数字化策略呢?傅荣校教授已在《中国档案》2003年第3期《馆藏档案数字化策略》一文就指出馆藏档案数字化策略的选择从理论上讲主要可分为以下五种方式:
A、将全部原始馆藏档案数宇化。这种全部数字化策略从理论上来说是理想的方式,但从保密和经济的角度考虑是不切实际的。
B、选择能代表馆藏特色的档案进行数字化。这种方式可以使数字档案馆形成自己的特色,有效避免了档案信息资源的重复建设。 C、将有高价值的档案信息数字化。高价值要看"档案信息是否存在潜在的长远使用价值,是否存在证据价值和情报价值,或是否具有历史价值或文物价值"[2]。这就要对档案根据档案保管期限表在数字化之前先进行鉴定,对一些保管期限划分不合理的,要进行个别调整。
D、对使用频率高的档案数字化。事实上,馆藏档案有很大部分是无人问津的,这样做可以节省成本提高效益。如我们高校档案,在近200项归档范围中,频繁使用的也就是职称、学籍、毕业生及一些政策法规等几项。所以在数字化时重点选择这几项就差不多了。当然这种方法也有缺点,需要通过加强馆际合作和上面第二、三种方法来解决。
E、用户需要时才数字化。这种方式可以将用户不需要的档案信息排除在数字化范围之外。但用户的需要有时存在很大的偶然性,切不要把极少情况下才会用到的档案进行数字化。
以上五种选择传统档案馆原始馆藏进行数字化的方式,各有特点,有些从馆藏档案信息的价值出发(如第二种方式),有些从利用者需要出发(如第四种、第五种方式)。基于以上分析,我们不难发现,无论哪种方式,如果单独采用都存在一些不可避免的缺陷。笔者建议将第二种、第三种、第四种和第五种方式有机结合起来使用,优势互补,以提高数字档案馆档案信息资源建设的质量。
2.共建共享模式
信息资源组织、数字化是一项庞大的工作,光靠一个档案部门的力量是不够的,应该由不同的机构来共同展开。原先单位存档把实物档案移交给档案部门就行了,以后这样是行不通的。在归档之前,有关单位要先把档案数字化,建立全文数据库,这也正好符合我们数字化走的目录数据库建设→全文数据库建设→多媒体数据库建设这种形式。
很多省市已经在实施共建共享模式。上海市档案局早在2005年《关于加强上海档案信息资源开发利用工作的实施意见》里就提出了数字化要走共建共享之路的策略,指出"要依托統一的电子政务网络平台和信息安全基础设施,整合包括馆(室)藏档案信息、政府公开信息、企业和个人的各类档案信息资源,建立条块结合的目录中心和分布式目录数据库。在此基础上,建立以档案全文、多媒体数据库为核心的档案信息中心。制定资源共享合作机制,推动需求迫切、效益明显的跨部门、跨地区档案信息资源的共建共享,避免重复建设"[ 3]。
四、档案数字化的工作要求
档案数字化是一项技术性较强的工作,涉及多类先进设备的使用、多种技术的综合应用、多项指标的选择,在组织、规划、实现等方面对档案工作者的业务水平有较高的要求。尽管数字化工作分纸质、音频、视频、缩微胶片档案等四种,但它们在数字化时有着一些共性的要求,这些要求可归结为一般原则性要求和技术性要求。
1.原则性要求
A、要科学规划与组织。抛开资金问题,馆藏档案数字化其实是一项耗时耗力耗人的工作。为确保数字化工作有条不紊地开展,除需要对人员进行合理的分工、组织和协调外,还需要对即将被数字化的档案进行有序的调控和出入库的检查与登记。
B、要准确定位数字化对象。任何一个档案馆的馆藏量都是丰富的,要想对其进行全部数字化是不现实的。这就要讲究策略问题,在符合国家档案开放规定以及有关规定情况下,要有选择地进行数字化。至于如何选择的问题在上文里已做了分析。《纸质档案数字化技术规范》对纸质档案数字化对象的确定有详细的要求。
C、要有安全保障措施,加强过程管理。档案部门缺少数字化设备和专业人员是很普遍的问题,所以在实际数字化时会出现委托外协加工或外包给电脑公司或商务公司代加工。这就要制定安全的保障措施,防止档案被丢失、泄密、篡改、复制或漏订错订等。在档案出入库的各个环节,要建立起严格的登记制度。
2.技术性要求
A、避免重复数字化。纸质档案扫描、图像处理、音频视频档案采集捕获等过程,多少都会损坏档案原件,丢失部分信息,因此在数字化时要尽可能做到一次加工,全息捕获,避免重复数字化。
B、技术指标和格式选择要合理。档案数字化的技术性主要体现在技术指标格式的选择上。档案数字化要本着存、用分离原则。从替代母本保存角度讲,对数字文件内容上的原真性要求高,因此不能过多的考虑存储容量问题,尽量不选择有损压缩格式,分辨率、采样频率、格式等技术参数的设置在满足国家标准或规范基础上,结合本单位实际情况可从高从优设置;从档案的网络化利用角度来讲,要求信息存取达到高效、快捷,而文件大小是决定网络访问速度的关键,只有图像压缩较高时,文件才能达到尽可能的小,但同时信息的失真度也比较大,要权衡决定。技术指标和格式的选择是一项非常关键的工作,既要考虑信息的保真性,又要考虑网络利用的效率,更要保护档案原件不受损失,这往往是矛盾的,必须根据业务需要做出正确、合理和可行的选择。
C、设备和软件要配套。专门的扫描设备或视、音频采集卡有相应配套的软件。虽然很多软件是兼容的,适用于不同的扫描仪或采集卡,但只有使用相应配套的软件才能使设备达到最佳性能,并取得最理想数字化成果。
总之,数字档案馆与传统档案馆相比,有着丰富的数字化资源、海量的存储、便捷的检索、快速的传输、高度的开放、信息的共享等优点。而档案信息数字化是一项庞大而又复杂的系统工程,建设过程中存在着许多困难,但档案信息数字化始终是档案管理的发展方向,这是数字时代的大势所趋。我们应当清醒地认识到档案信息数字化的建设和发展是分阶段的。因此,档案信息数字化的建设应根据需要和可能的原则,区别轻重,分清步骤,依据条件,量力而行。循序渐进,不断总结经验教训,逐渐走向完善。
参考文献:
[1]引自薛四新 彭荣 陈永生著:《档案信息化应用系统建设》,机械工业出版社,2006年1月出版
[2]引自傅荣校:《馆藏档案数字化策略》,《中国档案》2003年第3期
[3]引自《关于加强上海档案信息资源开发利用工作的实施意见》(沪档发[2005]201号)
作者简介:
许文霞 女(1960.03--)浙江台州人,副研究馆员,硕士学位,研究方向:档案管理。
主题词:数字档案馆 传统档案馆 档案数字化
数字档案馆的信息资源建设包括原始馆藏的数字化和网络信息数据库。原始馆藏的数字化是将馆藏档案转化成计算机可以识别和处理的数字化信息,经过整理和组织,存储在存储设备里。网络信息数据库是指实现数字化后的信息资源分布在网络服务器中,通过网络互联提供资源共享。数字档案馆是管理档案信息的"信息中心",档案的实体保管模式应该向档案信息化管理模式过渡。而数字档案馆的档案信息资源建设的首要任务就是如何将传统档案馆的原始馆藏数字化,亦即数字档案馆如何接替传统档案馆的原始馆藏,这是由传统档案馆向数字档案馆转型过程中的一个关键性问题。要解决这一问题,涉及一系列工作内容、技术与理论问题,诸如数字化采集设备的选择,数字文件格式的选择,文件存储系统的建立等。下面从以下四方面分析数字档案馆如何接替传统档案馆的过程。
一、馆藏档案数字化的工作内容
馆藏档案数字化工作内容从流程上分主要包括两项:一是将传统载体档案目录进行数字化,二是将档案内容进行数字化。
1.档案目录数字化的主要工作是对载体档案进行编目,并将目录信息录入到计算机中,建立档案目录数据库,利用管理信息系统实现档案目录数据的计算机管理和目录信息的资源共享。
2.档案内容数字化的主要工作是馆藏的纸质、照片、录音、录像、缩微等档案,通过扫描、加工、处理(包括去污处理、图像处理、OCR等),转变为文本、图像、图形、流媒体等数字格式的信息,存储在网络服务器中,利用计算机及信息系统提供查询、检索和浏览。
馆藏档案数字化工作内容从形式上主要可分为四种:纸质档案、音频档案、视频档案和缩微胶片等。
二、档案数字化的业务流程
一般来说,档案数字化业务流程可以分为以下几个过程:数字化预处理、数字化加工/转换、信息处理、信息存储、信息发布与信息利用等几个核心过程[1]。由于要数字化的档案形式不同,有纸质、音频、视频、缩微四种,因此在实际数字化时具体工作流程会不同。有关详细的、具体化的流程可参见相应的国家标准,如《纸质档案数字化技术规范》、《视、音频档案数字化技术规范》(征求意见稿)等。
1.数字化预处理
预处理是数字化加工的第一个环节,主要工作是将实物档案,如纸质档案、录音录像等按照数字化加工的轻重缓急原则,进行筛选,然后,再按照下一步数字化处理工作的具体要求做拆卷、分类、整理、模数转换等处理工作。
2.数字化加工与转换
是将传统载体的档案转换为以数字形式表示的档案信息资源,主要工作有:扫描、数码拍照、录音录像档案的数字化转换等。这一阶段需要重点加强对破损程度比较严重的、纸质又很薄的、很难直接进行扫描或者无法采取扫描方式进行数字化的历史档案的处理。主要采取的措施:一是根据实际情况做一些特殊的保护处理,或者变换方式如采用数码相机拍照然后再加载到计算机系统中,但绝不可以损坏原件;二是在扫描加工时应考虑一次扫描、多次使用、全信息捕获的基本原则,尽量在扫描前充分考虑档案的利用目的,避免多次重復扫描加工。因为每次扫描加工不仅花费人力、物力和财力,而且对档案原件也有损害。这个阶段工作过程中采取合适的扫描分辨率与模数转换等的技术参数是非常关键的。本阶段必须在大量的实践经验基础上,选择科学的、合理的数字化加工与转换的技术与指标开展工作,侧重点在于技术方案的选择与确定。
3.信息处理
本环节的工作是将数字化后的图像文件、多媒体信息等与档案的著录信息进行关联的重要过程。该过程要将图像与多媒体文件对照原始档案而进行核对、压缩及OCR图文识别。无论是纸质档案数字化后进行图文处理,如图像压缩、OCR识别等,还是录音、录像档案通过模拟到数字的转化后,都可能造成一定程度的数据丢失或信息失真,因此本阶段要重点考虑档案数字化后能够被存储、保存和提供利用,考虑如何将失真度降到最低。
4.信息存储
信息处理过程将生成关系型数据库文件、大量的电子图像和多媒体文件,这些数据需要存储在网络环境中并提供利用,而不仅仅是存储在光盘上保存在库房作档案备份。因此,应首先根据数字化存储容量及网络化提供利用的要求,选择网络存储设备、考虑数据库与电子文件的存储和被访问的方式。有关存储格式和标准已有相应的规定,如纸质文件数字化后存储格式已有标准。
5.信息利用
该阶段是将数字档案信息发布在网上,并提供不同网络范围内的不同数据内容的档案利用。利用面向两种对象--公众网用户和政务网用户。信息存储与交流利用所采取的格式是不同的。我们国家对存储格式有规定,但对利用格式没有规定。在质量可接受情况下,为实现快速方便利用可对格式进行转化,如采用占用空间较小的流媒体格式等。
三、档案数字化策略
档案信息资源要开发利用,就要对档案进行数字化处理,对档案信息资源进行组织,这一定要讲究策略,走有选择地数字化和共建共享模式两条路。
1.有选择地对馆藏档案数字化
馆藏档案浩瀚无穷,该如何选择数字化策略呢?傅荣校教授已在《中国档案》2003年第3期《馆藏档案数字化策略》一文就指出馆藏档案数字化策略的选择从理论上讲主要可分为以下五种方式:
A、将全部原始馆藏档案数宇化。这种全部数字化策略从理论上来说是理想的方式,但从保密和经济的角度考虑是不切实际的。
B、选择能代表馆藏特色的档案进行数字化。这种方式可以使数字档案馆形成自己的特色,有效避免了档案信息资源的重复建设。 C、将有高价值的档案信息数字化。高价值要看"档案信息是否存在潜在的长远使用价值,是否存在证据价值和情报价值,或是否具有历史价值或文物价值"[2]。这就要对档案根据档案保管期限表在数字化之前先进行鉴定,对一些保管期限划分不合理的,要进行个别调整。
D、对使用频率高的档案数字化。事实上,馆藏档案有很大部分是无人问津的,这样做可以节省成本提高效益。如我们高校档案,在近200项归档范围中,频繁使用的也就是职称、学籍、毕业生及一些政策法规等几项。所以在数字化时重点选择这几项就差不多了。当然这种方法也有缺点,需要通过加强馆际合作和上面第二、三种方法来解决。
E、用户需要时才数字化。这种方式可以将用户不需要的档案信息排除在数字化范围之外。但用户的需要有时存在很大的偶然性,切不要把极少情况下才会用到的档案进行数字化。
以上五种选择传统档案馆原始馆藏进行数字化的方式,各有特点,有些从馆藏档案信息的价值出发(如第二种方式),有些从利用者需要出发(如第四种、第五种方式)。基于以上分析,我们不难发现,无论哪种方式,如果单独采用都存在一些不可避免的缺陷。笔者建议将第二种、第三种、第四种和第五种方式有机结合起来使用,优势互补,以提高数字档案馆档案信息资源建设的质量。
2.共建共享模式
信息资源组织、数字化是一项庞大的工作,光靠一个档案部门的力量是不够的,应该由不同的机构来共同展开。原先单位存档把实物档案移交给档案部门就行了,以后这样是行不通的。在归档之前,有关单位要先把档案数字化,建立全文数据库,这也正好符合我们数字化走的目录数据库建设→全文数据库建设→多媒体数据库建设这种形式。
很多省市已经在实施共建共享模式。上海市档案局早在2005年《关于加强上海档案信息资源开发利用工作的实施意见》里就提出了数字化要走共建共享之路的策略,指出"要依托統一的电子政务网络平台和信息安全基础设施,整合包括馆(室)藏档案信息、政府公开信息、企业和个人的各类档案信息资源,建立条块结合的目录中心和分布式目录数据库。在此基础上,建立以档案全文、多媒体数据库为核心的档案信息中心。制定资源共享合作机制,推动需求迫切、效益明显的跨部门、跨地区档案信息资源的共建共享,避免重复建设"[ 3]。
四、档案数字化的工作要求
档案数字化是一项技术性较强的工作,涉及多类先进设备的使用、多种技术的综合应用、多项指标的选择,在组织、规划、实现等方面对档案工作者的业务水平有较高的要求。尽管数字化工作分纸质、音频、视频、缩微胶片档案等四种,但它们在数字化时有着一些共性的要求,这些要求可归结为一般原则性要求和技术性要求。
1.原则性要求
A、要科学规划与组织。抛开资金问题,馆藏档案数字化其实是一项耗时耗力耗人的工作。为确保数字化工作有条不紊地开展,除需要对人员进行合理的分工、组织和协调外,还需要对即将被数字化的档案进行有序的调控和出入库的检查与登记。
B、要准确定位数字化对象。任何一个档案馆的馆藏量都是丰富的,要想对其进行全部数字化是不现实的。这就要讲究策略问题,在符合国家档案开放规定以及有关规定情况下,要有选择地进行数字化。至于如何选择的问题在上文里已做了分析。《纸质档案数字化技术规范》对纸质档案数字化对象的确定有详细的要求。
C、要有安全保障措施,加强过程管理。档案部门缺少数字化设备和专业人员是很普遍的问题,所以在实际数字化时会出现委托外协加工或外包给电脑公司或商务公司代加工。这就要制定安全的保障措施,防止档案被丢失、泄密、篡改、复制或漏订错订等。在档案出入库的各个环节,要建立起严格的登记制度。
2.技术性要求
A、避免重复数字化。纸质档案扫描、图像处理、音频视频档案采集捕获等过程,多少都会损坏档案原件,丢失部分信息,因此在数字化时要尽可能做到一次加工,全息捕获,避免重复数字化。
B、技术指标和格式选择要合理。档案数字化的技术性主要体现在技术指标格式的选择上。档案数字化要本着存、用分离原则。从替代母本保存角度讲,对数字文件内容上的原真性要求高,因此不能过多的考虑存储容量问题,尽量不选择有损压缩格式,分辨率、采样频率、格式等技术参数的设置在满足国家标准或规范基础上,结合本单位实际情况可从高从优设置;从档案的网络化利用角度来讲,要求信息存取达到高效、快捷,而文件大小是决定网络访问速度的关键,只有图像压缩较高时,文件才能达到尽可能的小,但同时信息的失真度也比较大,要权衡决定。技术指标和格式的选择是一项非常关键的工作,既要考虑信息的保真性,又要考虑网络利用的效率,更要保护档案原件不受损失,这往往是矛盾的,必须根据业务需要做出正确、合理和可行的选择。
C、设备和软件要配套。专门的扫描设备或视、音频采集卡有相应配套的软件。虽然很多软件是兼容的,适用于不同的扫描仪或采集卡,但只有使用相应配套的软件才能使设备达到最佳性能,并取得最理想数字化成果。
总之,数字档案馆与传统档案馆相比,有着丰富的数字化资源、海量的存储、便捷的检索、快速的传输、高度的开放、信息的共享等优点。而档案信息数字化是一项庞大而又复杂的系统工程,建设过程中存在着许多困难,但档案信息数字化始终是档案管理的发展方向,这是数字时代的大势所趋。我们应当清醒地认识到档案信息数字化的建设和发展是分阶段的。因此,档案信息数字化的建设应根据需要和可能的原则,区别轻重,分清步骤,依据条件,量力而行。循序渐进,不断总结经验教训,逐渐走向完善。
参考文献:
[1]引自薛四新 彭荣 陈永生著:《档案信息化应用系统建设》,机械工业出版社,2006年1月出版
[2]引自傅荣校:《馆藏档案数字化策略》,《中国档案》2003年第3期
[3]引自《关于加强上海档案信息资源开发利用工作的实施意见》(沪档发[2005]201号)
作者简介:
许文霞 女(1960.03--)浙江台州人,副研究馆员,硕士学位,研究方向:档案管理。