试论网络信息资源长期保存的若干问题

来源 :经济研究导刊 | 被引量 : 0次 | 上传用户:jmzhao8888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:分析网络信息资源长期保存的难点,对网络信息资源的采集策略进行了探讨和比较,阐述了网络信息资源长期保存的责任主体。
  关键词:网络信息 长期保存 收集策略 责任主体
  中图分类号:F260文献标志码:A文章编号:1673-291X(2011)27-0191-02
  相对于以纸张等载体存在的传统信息资源,以数字介质为载体的网络信息资源具有数量规模更加庞大、产生速度更快、获取更加充分快捷等特色,从而为人们使用信息提供了极大的便利性。但是,网络信息更新频繁、生命周期短、不易永久保存的特点,使其在不知不觉中大量地流失。2001年和2002年,联合国教科文组织(UNESCO)相继发布《数字文化遗产保护纲领(草案)》、《数字文化遗产保护指导方针》两份文件,旨在提供与数字文化遗产保护有关的重要步骤的参考,并指出网络信息资源作为人类的重要文化遗产应当得到妥善保存。本文仅就网络信息资源长期保存涉及的几个问题作初步探讨。
  一、网络信息资源长期保存的难点
  1.对载体的寿命的依赖性。网络信息长期存取是以磁介质为载体的软盘、光盘、硬盘等,载体的寿命的长短决定着信息的可利用性。一方面,软盘、光盘、硬盘等载体的寿命明显短于纸质载体。据研究报道,9mm磁道磁带使用寿命为一至二年,8mm磁道磁带使用寿命为五至十年,4mm磁带为十年,WORM光盘为一百年。另一方面,软盘、光盘、硬盘等载体对保存环境条件要求较高,包括恒温、无磁场、湿度合适、无灰尘、无强光照射等,载体容易受到物理因素的干扰而损坏、变质与灭失。
  2.保存技术的过时换代性。用来保存网络信息资源的技术不仅复杂,而且更新较快,这可能导致以旧的格式存储的信息不再可用。美国数字信息归档特别工作组曾在有关报告中指出:尽管数据的丢失与存储载体的变质有很大的关系,但主要问题是因软件与硬件技术的迅速更新,当设再配套。有资料报道,在技术与市场的推动下,记录与储存数字资源的设备与软件大约每二三年就完成一个更新周期。所以,相对于载体寿命,技术过时对于网络信息资源长期保存是个更具有挑战性的问题。
  3.信息存储格式的多样性。网络信息资源以多种格式存在,对其长期保存的不利影响主要体现在两个方面。其一,信息存储格式如果同保存单位的软硬件条件不配套或不兼容,那么这些信息就无法得到长期保存。其二,保存网络信息资源的格式极不统一,包括PDF格式、SGML格式、XML格式、WDL格式、REF格式、WORD格式、MPEG格式、HTML格式等,仅Raster影像扫描格式就达数十种之多。网络信息资源的存储格式越多,对保存设备和技术的要求就越高,保存的难度就会越大。
  4.网络信息的动态变化性。当信息以纸质载体得到固定后,就会固定不变,而网络信息资源则不同,时刻处于动态的变化之中,这给捕捉和保存带来了困难。比如,有学者运用“著录中析出部分+出处部分”和“著录析出部分+出处部分+引用日期”两种形式随机抽查了《中国图书馆学报》、《情报学报》、《The Library Quarterly》等十种中外图书馆学情报学期刊2002年第一期中的10条网络引文,结果仅有4条能够重现原文。在这之中,未能重現原文的情况也不尽相同,有连网页都无法链接者;有所引文献荡然无存者。就是能查到所引文献,也颇费周折。况且这些文献的寿命如何是难以预料的。
  5.信息保存的著作权问题。保存以纸质载体存在的文献信息通常不受著作权的限制。因为,这种行为在各国著作权法中属于合理使用。尽管出于保存目的而复制以数字载体存在的信息资源亦往往被法律认可,但是适用条件却是不同的。其一,将网络信息资源从旧的格式转移到新的软硬件环境之中时,可能会出现代码、格式、结构、标记等的转换和新的元数据的析取,出现外观、感觉、功能、超文本甚至内容的缺失,从而涉及保护作品完整权、修改权、信息管理权等著作权问题。其二,对网络信息资源保存的合理使用规则复杂而不确定,法律风险相对较大。
  二、网络信息资源长期保存的策略
  1.完全性收集策略。完全性收集策略,又称总括性收集策略,是对所有类型的网络信息资源的全部收集,有人形象地比喻成“一网打尽”。由于通过人工对网络信息资源进行全部收集是无法做到的,因此通常靠相关计算机软件来自动完成。比如,爬虫程序能把“爬”过的网络文献的每一页都抓到服务器中,并且自动管理。采用完全性收集策略的网络信息资源保存项目有瑞典的Kulturarw项目、奥地利的联机归档系统(The Austrian Online,AOLA)以及美国国会的Internet档案馆协议项目等。完全性收集的特点是节省人力、效率高,收集到的信息的系统性、全面性较强。但是,完全性收集策略在很大程度上是迫于无法准确判断信息价值大小的无奈选择,所以可能收集到很多无用信息或者垃圾信息,并占用大量的存储空间。同时,由于无法在收集信息前向每一位权利人取得授权,因此著作权限制问题会比较明显。完全性收集策略对深层次的网页信息、不可见网页信息、动态信息的收集也具有局限性。
  2.部分性收集策略。部分性收集策略,又称选择性收集策略。这种收集模式只收集某个学科、专业,或者特定专题的网络信息资源,针对性、实用性较强。采用部分性收集策略的代表项目如美国著名的NDIIPP项目、澳大利亚的PANDORA项目、英国的Britain on the web项目等。部分性收集策略建立在对网络信息资源价值的判断之上,因此“收集标准”的制定就成为影响这种策略实施效果最主要的问题。美国著名的NDIIPP项目对数字资源的选择标准是:现在或将来,能够满足国会和研究者需求的信息;内容独特的信息;具有学术内容的信息;处于丧失风险中的信息;流通的信息。在此标准下的数字资源的特性可以归纳为:有用性、唯一性/独特性、学术性、风险性和流通性。部分性收集策略的不足是无法对网络信息资源的未来价值作出准确预判,而且对特定网络信息资源的发现、跟踪、定位、调整也非易事,被收集到的信息的覆盖率也往往不高。
  3.兼顾性收集策略。兼顾性收集策略,又称混合性收集策略。这种收集策略把完全性收集策略、部分性收集策略结合起来运用,做到优势互补、相得益彰。采用兼顾性收集策略的典型项目是丹麦的Web Archive计划、捷克的Web Archive等。比如,丹麦的Web Archive计划从2005年7月起,每年对丹麦的所有网站进行四次采集,同时还选择80个左右的重点网站进行频繁采集,每年还针对两三个重要事件进行主题采集。属于兼顾性收集策略的模式还有“优先爬行”与“集中爬行”相结合、推送模型和拉取模型相结合等。
  三、网络信息资源长期保存的责任主体
  1.图书馆。联合国教科文组织的《数字文化遗产保护指导方针》指出:尽管数字保存必须在合作的基础上进行,但是要有相应的机构承担领导职责。还有的国际组织在文件中指出:国家图书馆是获取和保存网络信息资源的最佳场所。图书馆在各国网络信息资源长期保存中的确发挥了主力和主导作用。比如,英国的CEDARS项目由JISC资助,牛津大学图书馆、剑桥大学图书馆、里兹大学图书馆参加,目的是研究数字信息长期存取的战略框架与具体方法,建立分布式长期存储系统。又比如,2004年6月启动的英国网络信息长期保存联盟计划(UKWAC)的合作单位由大英图书馆、威尔士图书馆、韦尔科姆图书馆等六个机构组成,旨在对英国网站信息进行选择性地保存。还比如,美国数字图书馆联合会(DLF)的组成单位包括大学图书馆、国会图书馆、加利福尼亚数字图书馆和洛杉矶国家试验研究图书馆,目的是通过多种方式支持其他责任主体保存网络信息资源的活动。
  2.档案馆。相对于图书馆等文献机构,档案馆的收藏更能反映历史的完整性、原貌与发展轨迹。因此,档案馆在网络信息资源长期保存中担负着重要的职责。比如,1991年5月,瑞士、挪威、芬兰、冰岛等北欧国家档案馆就通过合作调研出版了《电子文件存取与保护》一书。有学者认为,这是对网络信息资源合作保存的开端。又比如,1992年3月,澳大利亚举办了“澳大利亚已记录的文化遗产的存取”的全国会议,组建了由澳大利亚国家档案馆、澳大利亚国家音像档案馆等组成的专题调查组(TF2001调研组),研究重点是数字信息的长期存取与保护。还比如,1996年,美国建立了Internet档案馆,收集和保存Web信息,容量每月增加10TB。2001年1月,美国国家档案文件署(NARA)要求所有的联邦机构对他们的公共站点进行快照。PRESTO项目由英国、意大利、法国的三家最大的广播资料档案馆发起,目的是探讨降低保存音视频资料成本的方法。而在英国,95%的政府记录以电子形式提供,这些原生记录存储和保存在国家档案馆。
  3.其他主体。在实践中,从事网络信息资源长期保存的主体非常广泛。其一,出版商。比如,牛津大学出版社、美国地球物理协会和美国物理协会出版社等都对自己出版的重要数字信息产品进行保存。其二,信息中心。比如,德国的Probado项目由几所大学的信息中心联合开发,项目关注的领域是除文本文档以外的复杂文档,成果主要应用于音乐、3D图形、多媒体学习等方向。其三,科研机构。比如,启动于2001年11月的ERPANET项目,由来自英国、荷兰、意大利与瑞士的科研机构合作,目的是建立一个可扩展并能自我持续发展的欧洲启动项目,成为保存文化遗产和科学数字对象领域的虚拟数据交换中心与知识存储库。其四,高等學校。比如,CAMiLEON是英国利兹大学和美国密西根大学的合作项目,主要是对迁移技术和仿真技术进行比较研究。其五,学术团体。比如,美国网络大学政治和社会研究协会(TCPSR)正在从事收集和保存经济调查的数据研究,美国天体物理研究中心开发了保存天体物理学数据的系统。此外,参与网络信息资源长期保存的主体还有国家的商务部门、政策制定部门、企业、私人组织、数字产品经销商、基金会等等。
  参考文献:
  [1]陈清文.网络信息资源长期保存的采集策略与方法[J].情报探索,2006,(12):47-48.
  [2]赵俊玲,卢振波.网络信息保存的责任体系分析[J].大学图书馆学报,2006,(2):88-97.
  [3]于映红,张建华.数字资源长期保存的研究现状及发展对策[J].兰台世界,2008,(2):66-67.
  [4]周林兴.Web Archive保存研究:现状、意义与发展战略[J].档案管理,2009,(5):26-28.
  [5]胡燕菘.国外数字资源保存政策对中国的启示[J].图书馆杂志,2005,(6):26-38.
  [责任编辑 吴迪]
其他文献
文化是旅游的基础,交际是流动着的文化。涉外导游工作是一项跨文化的交际活动。从文化的视角看旅游的本质,从旅游者的需求探讨了涉外导游员在跨文化交际中的桥梁作用,指出了导游
国家发改委城市中心综合交通研究院院长张国华近日在媒体发表文章指出,出租车管制对市场最严重的扭曲,无疑在于数量管制和严格的准入审核造成出租车公司的垄断运营,由此带来的高
重庆华伟工业(集团)有限责任公司隶属陆军参谋部,是重庆市唯一一家军队保障性企业,主要生产信息化装备和机电产品。机械分厂是公司的二级部门,加工中心班是机械分厂的班组之一,现有
经过多年的发展与积累,目前中国的火中型商业银行积累了海量的客户信息和交易数据,并且非结构化数据量迅速增长。数据量的爆发式增长以及数据分析应用的日趋深入。标志着银行业
云南与泛珠三角其他省区的产业结构相似性问题主要体现在云南与湖南、江西、广西、四川、贵州五省的相似性上。不论从三次产业层面还是从制造业层面来看,云南与这五省的产业
由清华大学社会学系主办的"劳工社会学青年学者论坛",于2013年9月底在京举行。论坛由社会学系系主任沈原教授主持,来自十几所高校及研究单位的十几位青年学者就近期研究成果进
在社会主义比较中,信仰并实践科学社会主义的中国,依据国情进行了卓有成效的改革开放,在推进中国特色社会主义事业的进程中彰显了无与伦比的中国魅力。首先论述了中国魅力突
“晴天脚踩黄土噗噗响,雨天稀泥烂道点点坑。寒来风卷鹅毛钻衣领,暑往似火骄阳烤独行。”这是对辽源市西安区富国社区工会主席李世安多年来工作的真实写照。
改革开放以来,中国抓紧推进知识产权保护制度建设,目前已初步建成一个较完整的知识产权法律体系,并逐步与国际标准接轨。中国已颁布《中华人民共和国商标法》、《中华人民共和国
研究了不同种类的CaCO3对ABS/PVC/PE-C共混体系力学性能的影响以及活性CaCO3对ABS/PVC/PE-C 共混体系相容性、拉伸强度、弯曲强度、冲击强度、硬度、耐热性能和耐水性能的影