Web Archive保存研究:现状、意义与发展策略

来源 :档案管理 | 被引量 : 0次 | 上传用户:zap6872
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:分析了WebArchive保存问题的国内外研究现状,阐述了研究的意义并提出了相应的发展策略。
  关键词:Web Archive;现状;意义;发展策略
  
  类似经历应该不会感到陌生:打开一个URL,网页上显示——The pase can-not be found或The Servicc Invalid.ablc。巨量的web Anhive在不断地增加的同时,一边也在不断地消失,按照Ntoulas等人的研究,网页每周以8%的速度在更新之中,即每周大约有3.2亿个新网页产生,数据量相当于3.8TB,网页之间的链接关系也在不断地发生着变化,每周大约新产生25%的新链接:而根据另一项研究r2)则表明,一个Web Archive的平均寿命只有44天。
  Web Archive作为全球最大的信息资源库,存在着大量对文化遗产、学术研究、社会经济与政治具有重要价值的信息,但其产生的“自发性”与存在的“流逝性”的双重特点,使其成为一种珍贵而又脆弱的信息资源。而设置各种馆库选派专人进行管理各个时期所形成的档案信息资源,这是人类自古以来就形成的惯例,在网络环境下也不例外。因此,如何保存并让其成为后世不可缺少的智慧遗产,就成为当今人类社会信息管理中越来越重要的课题与研究领域。
  
  1 研究现状
  
  1996年,互联网档案馆(The Internet Archive)产生,标志着人类对web Archive保存研究的开始,它是一个非赢利性的WebArchive数据库,面向全球用户,免费、公开其收集的全部WebArchive信息资料;同年,澳大利亚国家图书馆开展了名为PANDO-RA项目,其主要是保存该国的在线出版物:同年,瑞典成立了Kulturarw3的web信息资源采集项目;2000年,美国国会图书馆提出了NDIIPP计划,webArchive作为其六个收集范围中的主要组成部分;2003年,由12个成员机构发起的国际网络保存联盟IIPC正式成立,其成立的目标就是:保存来自全球的web Archivc内容,使其能够持续地提供访问。到2008年,该联盟已吸纳了37个成员机构,其中也包括亚洲的日本。各种相关项目还在不断地出现,其研究的内容与深度在不断地拓展,并且,已开始将成果转化到实际应用和商业化操作的服务模式,如Hanzo Archive公司提供为企业级存档服务以及商业化服务应用(Archive-it)。
  相对于国外而言,我国的研究要晚些,中国“Web信息博物馆”自2002年1月18日第一次搜集以来,已保存了30多亿页的中文Web资源:国家图书馆“网络信息采集与保存”项目,保存了自2003年以来.cn域名下的网站和所有中文网站的Web信息。
  
  2 研究意义
  
  网站已经成为机构在网络空间开展业务活动的主要平台,根据CNNIC2008年发布的《中国互联网络发展状况统计报告》,中国网站数量已达到1919000个。WebArchive中存在着大量的具有原始记录性的信息资源,其对于组织机构本身与社会来说都具有保存的意义。
  
  2.1 Web Archive保存是网站复原的保障。网站复原也就是使保存起来的网页内容以原来的样貌呈现给用户,这其中包括其链接。比如,现在您想看看2000年时的新浪网站是个什么样子,上面有哪些信息?那么它将完整地展现在您的眼前,就犹如在访问原始网站一样。在这个意义层面,百度做得比较成功,它考虑到某些网站提供的信息可能由于内容更新或更换URL地址而无法显示,百度将搜索到的绝大部分内容都存放在自己的cache.baidu.com中,即百度快照,当原始的链接无效时,用户可以通过它查找到相应的信息,从而满足用户的信息需求。
  
  2.2 Web Archive保存保证了社会记忆的完整性,网页信息资源同样也是社会活动中直接形成的原始性信息记录,就如同我们所有的社会活动形成的原始记录一样,它准确地反映了我们的社会现实,如网络日志、博客(Blog),等等,它就犹如传统意义上的日志一样,成为个体的社会关系、日常活动等各种资源的汇聚节点。在网络环境下信息来源、自主跟踪关键字,以“自我”为中心,把最快、最高价值的信息聚合起来,实现所有互联网信息的“一站式”阅读体验,这种全新的社会记忆方式,充分反映了信息技术发展给人们间交流带来的便利。另一方面,对于组织机构来说,网页信息是组织机构业务活动过程的最直接证明。对于整个社会来说,网页信息更是构成社会记忆不可缺少的组成部分,是沟通历史的桥梁。数字文化遗产概念的兴起其实也是充分地反映了人们对这个问题的重要性有了进一步的认识。
  
  2.3 Web Archive保存是研究Web及相关技术发展的最有力证据。Web技术的发展经历了从静态文档到动态网页,再到Web2.0时代,网页URL的后缀从,htm、.html、.shtml、.xml等静态网页的常见形式,到以.asp、.jsp、.php、.perl、.cRi等为后缀的形式,再到以Blog、TAG、SNS、RSS、wiki等社会软件的应用为核心,依据六度分隔①、xml、ajax等新理论和技术实现的互联网新一代模式。我们可以通过分析与查看保存完整的WebArchive来分析Web及相关技术的发展,而且还可以通过了解相关技术的使用时间、版本信息从而来分析、追踪相关技术的使用范围与生命周期。通过跟踪文件格式、相关标准等来分析某项技术的使用程度,以后决定某项技术是继续使用还是淘汰。
  总之,每个用户都可以在开放的网站上通过简单的浏览器操作而拥有他们自己的数据,人们可以更加方便地进行信息获取、发布、共享以及沟通交流和群组讨论等。每个人都成为新闻或者观点的发布人,通过各种手段,如Tag、关联、链接等,网站能够以最大限度展示个人的作用,进而激发个人的积极性,人们成为Web上社会的人,Web也有了社会性,成为社会化网络。从这里可以看出,关注Web Archive的研究,也是与时下关注民生档案研究的方向是一致的、相吻合的。
  
  3 发展策略
  
  3.1 明确web Archive的保存责任。Fahrenheit认为“我们想做的一切就是保护我们认为我们以后还需要的知识的完整和安全”,保存Web Archive的意义就犹如我们传统时期保存档案的作用一样是为了保证这个社会记忆的完整。在 过去,这项工作基本是由档案部门来完成,但在当今,层出不穷的新类型的信息,特别是巨量的Web Archive信息资源已经超出了档案部门的保存能力,如果仅仅依靠档案部门单独的力量,这肯定是一个无法完成的使命,因为Web Archive信息的来源渠道实在是太多,有政府、商业企业、研究机构、教育机构、社会组织等形成的各种社会团体以及网络上海个普通的社会成员,而且信息内容从高质量的权威研究信息到数字化的图书报刊、从社会时事到小道消息、从学习资源到娱乐资源应有尽有。Web Archive信息的这种社会化特点,自然也就决定了在网络时代,传统的信息保存机构如图书馆、档案馆已经不能单独承担Web Archive信息资源长期保存这项长期并且艰巨的任务。因此在数字时代,传统的信息生产、流通、保存截然分开的分工机制正在被打破,保存主体必然要求重新定义。当然保存WebArchive的重责依然要由档案馆与图书馆来承担,它们应该承担起作为保存那些具有全国意义的、具有研究价值的、对国家主权认定有帮助的需要长期保存的WebArchive资源的主体责任:而对于那些只具有一般意义的webArchive资源可以由形成者负最初保存或短期保存责任:出于经济利益的考虑,商业类网站也应该对某些Web Archive信息资源负保存责任,如前面所述的百度就是一个典型的案例;最后,我们也应该鼓励个人出于公益的目的承担起保存Web Archive的责任,如一个名叫A.D.Williams的美国人所收集与保存的与“9·11事件”相关的Web Archive资料甚至比很多专业机构收集的还齐全。
  
  3.2 明确Web Archive的保存范围。由于互联网网页有着海量的信息,不但有书籍和文档等文本文件。也有电影、动画片、演讲等视频文件,还有音乐、录音、广播节目等音频文件以及隐蔽网中的数据库文件。等等。对于这些网页信息,我们是不是全部把它们作为Web Archive来保存与处理,这个问题应该有待考虑,因为单靠目前我们的技术、设备与资金都是无法做到的。在对待那些网页信息应该作为Web Arehive保存起来,我们可以考虑参考传统时期的归档原则,在传统时期我们也不是有文必档,而是有所选择。因此,我们在选择网页信息采集时可以采用选择性采集方法,即采集那些对我国人民、国家与社会具有重要重大意义的网页作为我们的保存目标,具体内容可以从政治、社会文化、社会经济、健康到艺术、人文等方面。在具体操作方式上,我们可以采用“以网站为单位进行保存,同一个网站的所有网站文件保存在一起构成该网站的全宗,网页与网页之间的链接关系和网页与程序文件的依附关系也不能被破坏”。但由于网页信息数量巨大且内容重复率高、更新频繁,这种方式在保存时会碰到好多问题。另一种操作方式是以主题或事件的形式来保存,即基于主题事件为专题来进行保存,如针对“9·11事件”、非典、北京奥运会等重要专题来确定Web Archivc的保存范围,这种方式更具有操作性,缺点就是完整上会受到影响,但从目前的实际情况来讲,它更具可行性。
  
  3.3 明确Web Archive保存的政策法律。到目前为止,除了挪威、丹麦等少数国家明确制定法律规定Web Archive信息资源纳入到呈缴法中外,世界上大部分国家都还没有制定政策法律来规范如何对Web Archive信息资源进行保存。因此,在没有法律保障的前提条件下,如何解决Web Archive著作权问题、编辑权问题、采集权问题、隐私权问题、公布权问题等相关法律问题将是一项耗时、费力的工作。
  这些问题不解决,要想做好Web Archive的保存工作是不现实的。因此,制定相关的政策法律必须提上日程。
  
  3.4 配置合理的档案人员。合理的档案人员的配置包括两个层面:人员数量与人员知识结构。因为无论信息以什么样的形式出现,即不管是传统的形式还是Web Archive的形式出现,信息组织的关键就是深入分析信息与人可能产生的各种关联,实质上是对各种信息关系的分析,这种关系包括人与信息、信息与信息、人与人之间的关系。只有有效地把握了关系,并依此理解来建立信息组织模式,信息才能被有效地利用与保存。而且在对这些网页信息进行采集与质量控制时,都对档案人员提出了更高的要求。因此,我们在为WebArchive制定保存方式时一定要依据自身的人员数量及人员知识结构来选择适合的策略。
  Web Archive保存是一个复杂且人力、物力耗费巨大的工作,其成本不仅有采集成本还有维护成本,对于人员的素质、法律的完善要求都非常高,而且对于WebArchive信息质量的控制也是非常重要的,因为只有高质量的WebArchive信息才能真正达到保存的目的。
  
  (作者单位:南昌大学历史系来稿日期:2009-06-19)
其他文献
摘 要:从《党政机关公文处理工作条例》的文本表述、党政机关公文的强制属性和伪造公文的司法判定等多个角度,分析无发文机关署名公文、有特定发文机关标志的普发性公文和电报不加盖印章情形的不切性,并从历次规定中申明会议纪要不属党政机关公文的主张。借鉴我国台湾的公文程式规定,着眼党政机关公文的多重属性,提出党政机关加盖印章应该成为铁律上升为国家法规。  关键词:机关公文;印章;公文处理工作条例  2012年
摘 要:文章通过对2001年~2012年《中国期刊全文数据库》检索出的相关文献进行统计分析,试图明晰国内学者的研究进展、研究内容及研究方向,总结成就,查找不足,为学者深入研究提供参考。  关键词:档案;休闲利用;研究综述  2000年9月,第十四届国际档案大会第三次全体会议在西班牙塞维利亚召开,会议的主题报告为《档案在休闲社会中的作用》,这一议题无疑拓展了档案馆的社会服务功能,为档案利用开辟了一个
全民守法,即任何组织或个人都必须在宪法和法律范围内活动,任何公民、社会组织和国家机关都要依照宪法和法律行使权利或权力、履行义务或职责。  守法既是档案法制建设的重要内容,又是实现依法治档的根本要求,要真正走向档案法治,实现依法行政,落实全民守法,就要转变守法观念。  转变守法观念,首先是实现从强调档案行政相对人守法向强调档案行政管理主体——档案行政管理部门及管理者守法的转变。要清楚档案行政管理主体
刘铭芳致力于小学教育教学研究和教师队伍培养工作,是一位在“教学相长”路上孜孜以求的“有心人”,是一位能操持、善协调、带给人正能量的“暖心人”。  在担任潍坊经济区锦绣学校教导主任、业务校长期间,在学校“内涵发展,教师第一”的理念指导下,以“努力打造教育理念先进,教学业务精良,结构合理,敬业奉献的教师队伍”为目标,悉心主持、研究、参与、见证了教师团队成长的管理过程。  回顾历程,刘铭芳不无感慨地说:
摘 要:本文基于美国民事诉讼联邦规则对电子发现要求的视角,通过对比分析电子发现与电子文件长期存取在现实中关于用途、元数据(信息包)和信息工作流程(信息流)、收集(归档)范围以及人员这几方面的需求,揭示两者的主体对象虽然都是电子文件信息,但需求却迥然不同这一矛盾。最后,提出了对我国电子证据发展的启示。  关键词:电子发现;电子文件长期存取;电子证据;需求  电子发现(E-discovery)是指为了
血站是一个特殊的医疗卫生服务机构,开封市中心血站自1996年建站以来,承担着全市采供血工作,血液的安全问题一直是血站工作的重中之重。如何证明和保障血站提供的血液是合格的、安全的,与采供血档案密不可分。  2000年以前,血站的业务工作开展较少,形成的业务档案也相对较少,没有相应的管理标准。2000年以后,血站依据《中华人民共和国献血法》、《血站管理办法》中的第二十六条规定:血站开展采供血业务应当实
摘 要:从教育工作和文学工作两方面简述卢玮銮与香港文学的关系,并且,以“卢玮銮教授所藏香港文学档案”为例,探讨香港中文大学大学图书馆系统进行电子化计划时,将私人档案转化为公共档案所面对的挑战及其解决方案。  关键词:卢玮銮;香港文学档案;香港文学资料库;香港中文大学大学图书馆系统  Abstract: This paper discusses the challenges in converti
《档案学通讯》2007年第5期刊发了赵彦昌先生的《考论——兼驳“天府”为档案馆库说》一文(以下简称“赵文”)。“赵文”千方百计论证“天府”不是收藏东西的地方而是职官的名称,对我国档案学界认为“天府”为保存档案的机构的18个学者观点一一给以驳斥否定,最后总结说:我们可以看出以上学者或者直接认为西周存放档案的处所为“天府”,或者认为是“宗庙”,但同时又将“宗庙”等同于天府,又或者将“天府”与宗庙并列。
[摘 要] 语文课程标准提出,小学语文教学需要让学生能够了解中华文化的丰厚博大,能够汲取中华传统文化的智慧,尊重多样文化的发展,通过吸收各种文化的优秀成分实现文化营养汲取,最终提高小学生的文化品位。本文阐述了国学经典在小学语文教学中的有效渗透,为小学语文教学中的国学文化内容渗透与整合提供一些有意义的参考。   [关键词] 国学经典;语文教学;文化渗透  国学是中国传统文化的精髓,是我国几千年发展
摘要:教学评估与高校档案工作关系非常密切,将两者结合研究具有很强的现实意义与理论价值。课题组通过对湖南省部分高校调查。认为普通师生的档案意识较薄弱,高校教学评估尚未得到广大师生的普遍关注,各方面对高校教学评估与档案工作的内在关系认识不到位,高校档案工作长效模式亟待健全,需要采取切实的措施改进高校档案工作。  关键词:教学评估 档案工作 长效模式调研报告 高校    1 调研背景    1.1