档案馆保存政府网站策略研究

来源 :档案管理 | 被引量 : 0次 | 上传用户:niyon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:本文介绍了政府网站归档的背景,指出网站是政府与公众通过网络交流的证据,保存政府网站是记录政府如何实现电子政府的唯一真实的方法,网站归档应该尽量归档网站上的所有内容。介绍了郑州市档案局馆对于政府网站归档工作进行试点的实践,包括选择归档范围、确定归档时间,介绍了两种归档技术:直接转移和远程采集,并介绍了网站存档格式WARC文件格式。
  关键词:网站归档;政府网站;WARC
  1 网站归档的背景
  互联网给档案工作者带来了许多理论和实践问题。例如,政府网站本身就是电子文件,还是政府网站包含着电子文件?政府网站只是发布信息的平台吗?换句话说,政府网站本身仅仅是另一种出版物吗?随着网络、设备、应用的不断变化,许多政府网站已经变成了政府和公众信息交流的平台。由此,政府网站已经具备了出版物和文件的双重属性。
  在2014年以前,国内很少有档案部门考虑将网站内容纳入归档范围。2014年,杨冬权局长表示要启动为各级国家政府网站网页存档工作,那就对档案部门提出了一个问题:是将政府网站本身作为一个文件归档,还是将其中的某些网页作为文件归档呢?过去档案人员一般认为网站并不是文件,而是包含有文件。根据《电子档案术语》中对电子文件的定义:“电子文件是国家机构、社会组织或个人在履行其法定职责或处理事务过程中,通过计算机等电子设备形成、办理、传输和存储的各种形式的信息记录。”如果政府部门通过网站处理事务,如果用户在做决策时参考了它们,或者如果网站有动态的信息交流,或者如果网站的内容、功能和用户记录具有文件保存价值,那么,网站就包含着电子文件。
  英国国家档案馆对网站文件最初管理方法是运用风险管理方法识别网站中哪些内容属于机构文件,然后确定保管方法,制定管理策略及程序。这种方法仅仅保存网站数据,而不是整个网站,存在信息资源丢失的风险。近年来档案界开始改变对网站的看法,不再将网站仅仅看做文件保存的地方,而将网站本身看做文件,认为网站是政府与公众通过网络交流的证据,保存政府网站是记录政府如何实现电子政府的唯一真实方法,网站归档应该归档网站上所有内容。
  2 郑州市档案局馆对政府网站归档备份工作的实践
  2015年,河南省郑州市档案局馆决定对政府网站归档工作进行试点。
  2.1 确定网站归档范围。在决定收集政府网站之后,我们必须弄清要收集哪些网站。和建立纸质文件归档范围一样,郑州市档案局馆制定了一个收集标准来规定哪些网站需要永久保存。我们决定归档以gov.cn结尾的郑州市所有政府部门、机关单位的网站。许多政府网站更新相对缓慢,对这些网站我们每6个月收集一次,对有些更新较快的网站我们可定为每周收集一次,在网站升级改版的时候必须收集。我们还可根据公众要求收集某些网站,根据重大事件的发生灵活调整网站收集范围。
  2.2 网站归档保存方案。目前,政府所面临的大部分问题都涉及多个部门。未来的人们如果想了解现在的一些事情,仅仅参考某一个政府部门网站是远远不够的,需要利用多个相关的政府部门、非政府组织和个人的网站资源。显然,保存网站是一个跨部门的综合课题,需要集思广益。方案之一便是互联网档案馆(www.archive.org)现在使用的模式,由某一个档案馆负责保存所有的网站。另一种方案是由不同的档案馆分级收集各自管理范围内的网站。最后一种方案就是按需收集。组织一些档案馆就某个专题、某重大事件进行网站收集,如世博会或天津大爆炸事件。总之,保存网站的最终方案也许是上述几种方案的结合。
  2.3 网站归档保存技术。收集网站所需使用的技术也是多种多样的。这些技术可以粗略地分为两大类:直接转移和远程采集。从概念上来讲,收集网站资源最简单的方法就是直接拷贝原数据。这种方法需要网站所有者的合作,允许我们直接访问网站服务器,从服务器上拷贝整个网站的所有文件,并将这些文件转移到网站保存机构。我们可以使用可移动存储介质转移数据,也可以在线收集。
  这种方法相当于在档案馆网站服务器上重新搭建并复制了一个网站,只是网站内容被定格在某一天。这种方法最大的优点是通过精确复制原网站的内容保证了对原有网站最真实的拷贝。可这种方法仍然存在潜在的弊端。首先,这种方法非常耗费时间,并且技术十分复杂,需要再次安装一个完整的资源管理系统,同时还要关闭某些网站内容,如日期显示和计数器等。显然这种方法并不适合大规模保存网站。其次,还必须保持原有的技术架构来支持网站,而这种技术架构可能已经与现在网站的架构不同了。我们希望归档的目标网站应用了各种不同的网站服务器软件、搜索引擎、数据库技术和内容管理系统,由某一家机构来实现这些技术的整合是行不通的。因此,这种方法适用于收集比较简单、数据性的网站,并且是能够跨平台运行的网站。档案馆目前仅针对这类特殊的网站利用这种直接转移的方法进行收集,尤其是对那些生命周期较短的网站进行一次性复制。
  当我们要收集大量网站的时候,我们就会使用远程采集技术。使用网页爬虫软件来模拟网络浏览器,从而实现对网站的远程采集。页面采集列表向网页爬虫传达采集指令。首先,网页爬虫向网站服务器发出访问请求,访问列表上的第一个页面并进行复制保存。网页爬虫会识别该页面所有的超链接并将这些链接加入到采集列表。网页爬虫通过循环记录每个页面的超链接,实现对整个网站所有页面的采集。这个采集程序通常是由一些参数控制的,如网页爬虫所跟踪超链接级数,这个参数可以对采集的范围进行界定。档案部门在操作筛选政策时,可以注明要收集哪些网站,以多长时间为周期对网站进行采集。网站回溯器提供了一个便捷且新颖的访问方式,即重写目标网站所有的超文本链接,而非直接指向原始网站。通过这些重写的链接地址,用户可以在档案馆的系统中浏览当时的网站内容。   远程采集技术主要优势在于能够高效率和低成本地采集大量网站,各网站数据进入一个总后台,可以跨网站检索。但也有一些缺点。该技术明显局限在于网页爬虫只能采集那些被链接内容,而数据库深层数据和那些只能通过搜索才能访问的内容却不能被采集。该技术不能采集微博、微信等需登录网站,不能采集音、视频。该技术不是备份,不能恢复原网站。
  2.4 网站归档的速度和文件大小。郑州市档案局采用远程采集技术采集政府网站,数据量增长很快。因为网页链接全部重写,系统很难找到增量的点,所以每次均全部采集,无法使用增量采集。举例来说,采集郑州市人民政府、郑州档案信息网等7家单位,耗时28小时,采集网页52万页,采集的文件大小共1.5G。郑州市共约上百家政府网站,都采集下来,其存储容量是惊人的。郑州市档案馆存储共60T左右,就算都存成政府网站,也存不了多长时间。看起来使用云存储是必需的方案了。
  3 网站保存文件格式WARC介绍
  郑州市档案局馆保存的网站采用的存档格式是WARC文件格式,但一般会压缩成gz文件,分卷压缩。WARC (Web Archiving File Format) 网络存档文件格式,2009年5月成为正式国际标准,标准号为ISO 28500:2900。此格式是唯一面向网络资源长期保存的资源保存格式,WARC 格式具有软件生态环境完善、内容丰富、便于管理、易于扩展、支持大容量文件保存等特点,同时适合网络资源和数字资源的长期保存使用[1]。
  WARC 文件可以使用的软件:
  (1)抓取软件:目前最常用的两种采集软件是Heritrix 和GNUWget,面向用户桌面的工具中常用的是WarcCreate 软件。
  (2)文件处理软件:指以保存、交换等应用为目的,对WARC文件进行处理的软件,包括格式验证、切割、组合、元数据抽取等。
  (3)索引、检索与访问软件:可对WARC文件进行索引,用于检索,并提供检索界面,响应用户的检索请求,将检索结果在浏览器中呈现给用户。常用Nutchwax、Wayback Machine、Solr 和Momento。
  (4)综合管理软件:集成了采集、管理、索引和发布等流程,便于保存机构快速开展网络存档活动。其中较知名的是新西兰和英国图书馆开发的Web Curator Tools和荷兰图书馆开发的NetArchiveSuite。
  截至2014 年7 月,英国图书馆互联网存档项目已经保存了24TB 的网络资源,法国国家图书馆保存了450TB的网络资源,澳大利亚图书馆的Pandora项目数据量也达到了12. 22TB。这些资源都以WARC格式保存。美国国家档案馆发布的文件进馆格式指南,也将WARC文件格式列为可接受格式[2]。郑州市档案局馆进行政府网站存档工作,也采用这一格式,这是符合国际潮流的。
  参考文献:
  [1]曲云鹏.网络存档文件格式WARC研究[J].图书馆学研究,2014(24):20~28.
  [2]http://www.archives.gov/records-mgmt/policy/transfer-guidance-tables.html#webrecords
  (作者单位:郑州市档案局 来稿日期:2015-10-20)
其他文献
毕业  我和男朋友大学四年异地恋,6月份一起毕业。我已经在他读书的城市找好了工作,我们约定入职安定下来后,一起做高考那年的语数外试卷,谁分数高以后听谁的。  篮球  我只邀请过一次女朋友来看我打3v3篮球,那次我表现完美,得分、篮板、盖帽……无所不能。以后女朋友再提出想看我打球,我都没带她去过,因为我不是一直有钱能请5个人吃饭的。  吵架  学校BBS有人发帖问“为什么男生吵架吵不过女生?”帖子说
摘要:分析档案信息资源整合的研究现状和现实状况,以广东的顺德和深圳、上海浦东和安徽和县等地为例,探讨这些地方档案信息资源整合得以实施的原因,剖析现阶段档案信息资源整合面临的体制约束和困境,认为应当从机制创新的角度拓展档案信息资源整合的空间,并在此基础上提出借助信息技术、提倡创新机制、坚持区别对待等原则,实现档案信息资源整合不同形式、在不同层面的深入发展。  关键词:档案信息资源;整合;体制;约束;
2012年7月9日,正在河北昌黎火车站执行暑运安保见习任务的李博亚,为勇救轻生旅客,不幸被列车轧断双腿,身负重伤,受到全社会的广泛关注和普遍赞誉。李博亚先后被授予“全国见义勇为优秀大学生”、“中国青年五四奖章”、“全国公安系统二级英雄模范”、“河南省模范大学生”等荣誉,被誉为“90后最美学警”、“中国最美警察”。  2012年7月9日,是李博亚在昌黎站参加社会实践的第17天。李博亚和往常一样跟着老
“高考专业填报咨询确实要爆发。”北京格局生涯教育咨询中心创始人赵正宝说。  这个爆发在中国快则一两年,慢则五六年。而在美国,大学专业咨询已是一个蓬勃发展行业,美国《企业家》曾撰写《全球七大造富蓝海》,它写道:“事实上,申请大学和入学测试已成为一门学问,给了解这个行业的创业者提供了大量独特的创业机会,你可以帮助众多那些还不了解技巧的学生申请到合适的大学。”  赵正宝从事中国高考专业填报咨询、职业规划
2007年岳川从大专毕业后,并没有从事和所学财经专业相关的工作,而是参加了天津市河北区环卫系统的公开考试招聘,在击败一百多个应聘者之后,成为了河北区环境卫生管理局的一名环卫工人。他的工作主要是疏通下水道,俗称掏粪。虽然工作辛苦,但岳川决定做一个快乐的掏粪工:“如果无论怎样都要去做这件事,躲也躲不了,那我不如快乐点,用心点,把事做好。”  初入鲍鱼之肆  岳川每天的工作内容都大同小异。每天早上8点上
春天是播种的季节,更是梦想萌发的季节。在老家庭院的葡萄架下,一盘青灰色的石磨静静地躺在那儿,上面摆满了花盆,宛如鲜花映衬下别具一格的装饰品。在家乡的农村,几乎所有的石磨已经被主人丢弃在了遗忘的角落。然而,这一块块看似平凡的石头,记载了无情的岁月在它们的“容颜”上镌刻着的百姓生活的渊源和梦想。  我的家乡是沂蒙老区,祖祖辈辈流传着“靠山吃山,指山打磨”的民谚。那个时候,村子里家家户户几乎都有石磨,也
在文化研究里,城市是最有包容性、多样性、参与性的表达场所。因为有大量的移民,大家觉得城市是超越单一地域的特殊空间。  城市里的认同常常与你跟谁说、在什么情境下说有关系。比如你和一个纽约人对话,你会说我是上海人、北京人,但在另一个程度上,你也会说,我是中国人。这并不是完全矛盾的,因为文化和地方性之间的关系是错综复杂的。  关键在于,我们能够找到比较多样性的认同,来描述我们的状态,而非单一化的标签。因
李雅兰对飞机的痴迷非同一般,2008年毕业于中国民航学院航空电子工程专业的她,曾是国内航空公司的一名飞机维修工,如今则是美国知名飞机销售商希尔斯伯勒航空公司最棒的飞机销售顾问之一。    知道飞机一年要花多少钱吗?      打开盒子,李雅兰看到一堆飞机零件模型。“现在你有1个小时来组装这架飞机模型,现在开始计时!”HR就这样把雅兰一个人留在了会议室。  “1个小时!开玩笑!”时间紧迫,李雅
我是一名实习生,现在刚找到工作,待遇不错。死党(大学同班同学)问我单位还要人吗,我如实说了,结果她说也想来这边面试。我所在单位的应聘时很在意我没有毕业这事(公司认为实习生要经常回校处理事情,很耽误工作进度),我是几经说服和努力才通过面试的,单位还要看试用期表现才决定最终我是否能被留下。现在死党执意要来,我也不方便再说什么,但又担心单位觉得我多事或给他们带来不必要的麻烦。可这些话我又不能直接跟死党说
小学写作文要憋足500字,平均每写十来个字就要数一遍,通篇下来只是提高了验算能力。中学开始写议论文,动辄两三千字,逼得我几乎要放弃写作。那时候的我们尚不知道如今有一种叫“围脖”的东西,让你在140个方块字里心痒难搔,一件事恨不得连刷三五条才过瘾。这是摆弄文字的乐趣,也是心理上的争夺站。被逼着做减法,删掉那些漂亮的形容词,改掉穿靴戴帽的习惯,留下最精粹的,才是你真正想表达的——原来真正要讲的也不过一