从档案学视角看网站文件的归档

来源 :北京档案 | 被引量 : 0次 | 上传用户:wanghui1234567890
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  随着电子商务和电子政务的兴起,政府和企业以及其他机构纷纷建立自己的门户网站,将现实机构虚拟化,通过网站发布信息,提供服务,实现其管理和服务职能,极大地提高了办公效率,增强了办公的透明度。网站已经成为机构在网络空间开展业务活动的主要平台,网站开展业务活动的过程中形成许多具有原始记录性的电子文件,这些网站文件对于组织机构和人类社会来说都具有重大的意义。
  网站文件是指组织机构在处理业务活动过程中,通过网站形成的、具有原始记录性的电子文件,包括网页、后台数据库文件、程序文件等。网站文件能够真实地反映出组织机构通过网站进行的业务活动的轨迹,具有凭证价值和情报价值。
  
  一、网站文件归档的必要性
  
  网站文件是社会活动中直接形成的原始性信息记录。对于组织机构来说,网站文件是组织机构在进行业务活动的过程中直接形成的原始记录,属于组织机构活动的证明。对于整个社会来说,网站文件是构成社会记忆的重要组成部分,是沟通历史的桥梁,具有历史性。但网站文件具有更新快、寿命短以及惟一性的特点,这就使得网站文件的保存必须要及时、可靠。
  
  二、网站文件归档的可行性
  
  就世界范围来看,由图书馆来承担的网页收集项目对网页的捕获、归档、存储都进行了研究,并在实践中取得了可喜的成绩,但是鉴定的角度不同,图书馆更加关注的是网页的文化价值,而忽视了其原始记录性,对于元数据捕获也没有给予足够的重视。笔者认为,网站文件归档的任务应当由档案部门来承担,档案学理论可以借鉴到网站文件归档中来。
  1、电子文件管理对网站文件归档的借鉴意义。网站文件本身就属于电子文件的范畴,可以按照电子文件的管理方法进行管理,网站文件的生成、发布、捕获、归档、利用是一个完整的运动过程,应当对其全程控制,不仅保存网站文件本身,还要连同元数据、变化日志、插件程序等一起保存,才能保证网站文件的真实性和完整性。
  2、来源原则对网站文件归档的借鉴意义。面对浩如烟海的网站文件,最好的方式就是以网站为单位进行保存,同一个网站的所有网站文件保存在一起构成该网站的“全宗”。网页与网页之间的链接关系和网页与程序文件的依附关系也不能被破坏。目前美国的互联网档案馆(Internet Archive)已经体现了“来源原则”。
  3、档案鉴定理论对网站文件归档的指导作用。早在20世纪80年代,法国档案学者罗尔德·瑙格勒提出了电子文件的“双重鉴定论”①,一方面要判断电子文件信息的有用程度,另一方面要判断电子文件有用程度实现的可能。网站上的信息以多种格式存在,并且具有多种表现形式,需要从技术上判断其有用程度实现的可行性。对于网站文件内容上的鉴定,可以借鉴加拿大档案学者特里·库克(Terry Cook)的“宏观鉴定战略”,从能否反映该机构的职能,能否反映当时的社会环境,能否满足人们的社会期望等角度进行鉴定。
  4、档案部门理应承担网站文件归档的责任,由机构档案室对本机构网站包括内联网和外联网上的网站文件进行归档,公共档案馆对所有的公共网站上有价值的文件进行保存。
  
  三、网站文件的归档策略
  
  1、网站文件归档范围的确定
  并非所有的文件都成为档案,同样,并非所有的网站文件都具有长期保存的价值,因而需要制定一个策略决定哪些需要归档,需要保存多长时间。
  从内容上来看,有两种基本的收集方法:广泛收集法(comprehensive approach)和选择收集法(selective approach)。广泛收集法是通过自动捕获软件收集网络上的一切资源。②选择收集法由人工进行鉴别有价值的文档然后再进行收集。③。
  从技术上来看,应当归档的文件包括:系统软件、自动化软件的结构文件、日志、cookies、索引、图形、文本、出版物、图像、音频、视频。
  2、网站文件的捕获策略
  捕获策略取决于网站的类型和复杂程度,最常用的两种捕获方式是:对象驱动法(object driven strategy)和事件驱动法(event driven strategy)④。适合于由HTML文件构成、不能实现交互功能的网站。事件驱动法主要是捕获网站和用户之间发生的事件或事务,适用于数据库驱动(database-driven)的动态网站。两种方法的最大不同就是着眼点不同,对象驱动法关注的是构成网站文件的对象,而事件驱动法关注的是网站和用户之间的单独的一个事件。
  以上两种方法讲的是什么元素需要捕获,并没有说明捕获时间。捕获的时间取决于网站变化的范围和频率。网站更新存在以下四种情况:(1)经常更新,更新间隔的时间是三个月以内;(2)不经常更新,更新间隔的时间是三个月以上;(3)有规律地更新,按照计划有规律地进行变化(例如一周一次,一天两次);(4)不规律地更新,没有按照计划进行更新,更新时间比较随意,更新间隔的时间也是不确定的。按照以上四种变化情况,网站可以分成以下四种类型:规律且经常更新的网站、规律但不常更新的网站、不规律但经常更新的网站、既不规律也不经常更新的网站。捕获网站文件的时间是由网站的变化情况来决定的,跟踪不规律但经常更新的网站难度很大。
  3、网站文件的保存策略
  由于计算机软件和硬件的不断更新,今天还存在的电子文件十几年或几十年后未必能够读取。除了HTML文本文件属于非专利的形式外,网站上包含许多专利格式,例如,Java程序、ActiveX程序、.jpg格式文件、gif格式文件、.tiff格式文件等都是网站的构成要素,所以仅保存HTML文本文件是远远不够的。网站的内容、结构、背景都要保存,脚本程序(Script)和插件程序(plug-in)也需要保存,对于网站文件来说,元数据和数据同样重要。
  网站文件的保存方法主要有数据考古(Data Archaeology)、仿真法(Emulation strategy)和迁移法(migration strategy)。数据考古是由格拉斯哥大学的Seamus Ross 提出的一种方法,也叫数字考古(Digital Archaeology)⑤,是将在当前软件下生成的且以当前格式保存的电子文件移动到电子文件管理系统中,直到将来利用的时候才将其转移到新技术环境下。仿真法是指用一个计算机复制另一个计算机的运行活动的过程,仿真计算机能够逼真地模拟原始计算机,并将其取代⑥。迁移法指的是把数据从一种过时的数据格式移动到当前使用平台,例如将word97格式保存的文件移动到office2007软件平台中。与数据考古和仿真法相比,迁移法在实际中的应用更为广泛。数据考古只能作为一种短期战略(大约五到十年),并非长久之计,而仿真法仍然处于理论探索阶段,并且对技术具有很强的依赖性。所以,迁移法是目前惟一的长久保存方法。⑦
  
  四、网站文件归档存在的问题
  
  虽然网站文件归档的项目已经展开,人们对网站文件的关注程度逐步上升,但是目前网站文件归档尚处于探索阶段,仍然存在许多问题,尤其是国内网站文件归档的有关研究还是相对滞后的。
  1、动态网页的捕获问题
  动态网页一般都有后台数据库做支持,具有很强的交互性,网页会根据用户的要求和选择而动态改变和响应,用户的客户可以在网站上留言发表疑问、建议和意见等。动态网页的组成要素(内容、结构、背景)都是通过数据库自动生成新的页面,无须手动更新,例如在线采购系统、商务交流系统中的订单都是自动生成的。
  2、网站文件管理流程该如何设定的问题
  文件的流程管理属于业务活动的特殊流程,负责管理组织机构所有业务流程中形成的文件。网站文件与一般的文件管理流程也有所不同,因为网站文件的生成、控制、传播和保存的责任相对比较分散,给网站文件的管理流程设计加大了难度。
  3、网站文件的长久保存问题
  网站文件长久保存包括软硬件更新对网站文件的再现,网站文件保存体系的构建,备份和容灾系统的建立等。在数字保存方面,OAIS参考模型已经成为公认的标准,网站文件的保存也可以借鉴OAIS参考模型,实现长久保存和利用。另外,也有人提出了建立软件和硬件博物馆来实现数字文件的长久保存。
  4、相关的法律问题
  比如,著作权问题,网站文件的作者是无法明确的,有些还是匿名的;编辑权问题,包括URL链接的相对变更、文字编码转化、信息单元表现形式的变更⑧;采集权问题,档案部门是否有权对网页进行下载、复制、备份;长期保存权问题,保存机构是否可以无限期拥有作为国家文化遗产的网站;公布权问题,保存机构捕获网站文件之后是否具有公布权;隐私权问题,在对网站的利用过程中是否侵犯了网站形成者的隐私权。这些都是迫切需要解决的法律问题。
  谢伦伯格曾经说过,“电话是掠夺历史的盗窃者”,在人们享受网络带来的便利的同时,有没有意识到网络带走了历史呢?
  
  注 释:
  ①哈德罗·瑙格勒:《机读文件的档案鉴定:一份“文件与档案管理规划”纲要性研究报告》,联合国教科文组织,1984年。
  ②http://kulturarw3.kb.se/
  ③http://pandora.nla.gov.au/index.html
  ④Dollar Consulting. ARCHIVAL PRESERVATION OF SMITHSONIAN WEB RESOURCES: STRATEGIES, PRINCIPLES, AND BEST PRACTICES. http://siarchives.si.edu/pdf/dollar_report.pdf.
  ⑤Seamus Ross and Ann Gow.Post-Hoc Rescue of Digital Material.
  ⑥Jeff Rothenberg.Using Emulation to Preserve Digital Documents,原文:”Emulation as a process in which one computer is used to reproduce the behavior of another computer with such fidelity that the emulation can be used in place of the original computer”
  ⑦David Barman.Reality and Chimeras in the Preservation of Electronic Records.
  ⑧钟常青、杨道玲:《Web资源保存中的法律问题探讨》,《情报理论与实践》2006年第3期。
  作者单位:中国人民大学信息资源管理学院
其他文献
从2009年开始,北京市档案部门设立"档案馆日",组织开展"档案馆日"活动。2013年起,北京市档案局(馆)按照国家档案局部署,将"国际档案日"与北京市"档案馆日"结合起来,形成统一
囊括《中国档案》1951-2013年共3万多篇文章的"中国档案数据库",记录了新中国档案事业发展历程,内容丰富,全文检索,查阅方便。每套定价4600元。咨询电话:63021355中国档案杂
馆藏档案数字化现已成为国家档案馆应对信息时代的挑战、拓展资源共享空间和社会服务功能的必由之路。开展档案数字化,必须基于档案实体,因此,档案的修复保护工作则必然成为
北京,五朝古都,世界和全国各地文化融会之地。北京老字号,涉及衣食用行,是这个历史文化名城的一张名片,而在诗词的美妙韵律里,你能品出老北京的味道。    一、食之味    北京老字号饭庄众多,如都一处、致美斋、仿膳等,有关它们的诗词,就像它们的菜肴,色香味形俱全。  都一处饭庄俗名“醉葫芦”,创办于清乾隆三年(1738年),主营各种“烧麦”、“炸三角”和山东风味炒菜。《增补都门杂咏》云:“京都一处共
2009年7月6-9日,中国图书馆学会第八次全国会员代表大会在首都北京召开,来自全国各地的300余名代表和来宾出席了本次盛会。
本文简单介绍了GSI-SCIMS二期工程之子系统--《船体产品信息管理系统》的功能和开发情况.
本文介绍了比例阀控制液压电梯的设计原理,设计了新的方案来解决液压电梯等待停站开门时间长的问题;并结合液压电梯的特点设计了更加完善的安全保护.
开场白:是档案事业的科学发展催生了《北京档案》杂志,又是《北京档案》杂志记录了档案事业的科学发展,作为档案事业科学发展的一扇窗口,我们真的离不开这份杂志。
本刊讯 2012年2月13-14日,北京市档案局组织召开了“基于异构系统的电子档案凭证性保障核心技术开发与应用”课题启动仪式暨开题会。该课题是2011年12月市档案局向北京市科学技术委员会申请立项的北京市科技计划课题。北京市档案局(馆)党组书记陈乐人同志到会致辞,并与国家档案局技术部主任付华共同为课题启动仪式剪彩。  陈乐人书记在讲话中对市科委大力支持市档案局工作、對特邀专家为课题提供的支持与帮助
通过对数字图书馆版权问题及其研究现状的分析与研究,发现数字水印技术是解决数字图书馆版权问题的最关键技术之一。综合分析数字水印技术在数字图书馆中的应用现状,着重分析实