网络信息资源保存研究

来源 :企业文化·中旬刊 | 被引量 : 0次 | 上传用户:f520li
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】 本文根據目前网络信息资源存在的流失现状,分析网络信息资源保存的需求,提出了保存网络信息的措施及其实现方法。
  【关键词】 网络资源;信息资源;信息保存
  随着计算机技术和信息通信技术的飞速发展,网络已成为现代社会的重要组成部分,人们时时刻刻都在网络上发布、浏览、查询信息。这种信息的形式是多样的,内容是复杂的,容量是庞大的。这些信息是文化的痕迹,在一定时间间隔内它的价值是不可估量的。但由于网络信息的动态性特点,这种信息的生命周期却是十分短暂的,据相关机构统计,一个网页的平均生命周期仅有44天,如何高质高效安全稳定的保留这些具有潜在价值的网络信息已经越来越受到国内外相关领域的重视。
  一、 网络信息资源保存的需求分析
  网络信息虽然形式多样、内容繁杂,但它仍是一种数字信息,同数字信息一样必须依赖众多技术、方法、工具和管理机制才能为人们所利用,所以在保存网络信息自身数据的同时,与其相关的技术、方法、工具和管理机制也应一并保存。这样网络信息资源的长期保存就必须满足以下需求:
  1.网络信息原始数据的保存。网络信息的生命周期短和存储量庞大的特点,限定了网络信息资源的保存必须采用冗余备份的方式保存。由于现在网页的内容是多种多样的,有文字、图片、声音、图像等内容,其数据模式又大多是服务器/客户端模式,许多内容多是采用服务器请求调用的方式获取,很容易在保存的过程中,只是保存了信息的绝对连接或服务器请求命令。当再次打开保存后数据时很可能就会无法显示。这就要求在保存信息过程中必须将不同类型的信息完整的采集下来,并保证保存信息能被准确完好地读取。
  2.网络信息动态联系特征的保存。网络信息具有传统信息所没有的动态性特点,网络信息从类型角度看,多是由脚本数据,表单数据,函数公式,链接数据,数学模型组成,其功能和表现形式多为导航,工具选项,交互式表格等。其显示的内容多根据访问网页第一时间浏览者的需求由服务器动态生成的,并非传统数据一成不变的。换句话说不同的人在网络上查询相同的信息可能得到的结果是完全不同的,但又都是正确的,它反映了信息与信息之间的联系,而这些信息正是现代网络信息的关键所在,比原始信息更重要的不是内容而是信息之间的联系。这种联系的保存是网络信息的难点,而这些信息的丢失将导致网络信息的灵魂消失。
  3.网络信息属性的保存。网络信息的属性包括:出处,时间,作者,来源,性质,类别,关键字等等。通过这些信息的保存能追溯相关信息的来源与历史,确认信息的真实、可信和完整性。同时,可通过此种方式针对现代网络信息进行信息查重、内容校验、身份认证、版本演变、知识产权认定。所以,保存网络信息的属性,对于真实、完整地保存网络信息是十分必要的。
  4.信息类型与处理标准的保存。随着网络技术的不断发展,新技术,新标准,新类型,新模型不断涌现,同时,旧的标准也在不断被替代,由于网络信息资源的多样性,在进行保存的过程当中,不同时期的网络信息中的信息编码、字符格式、网络标记、体系结构、压缩方式、加密算法等方面的技术标准是不同的,要确保在一定时间跨度上不同网络信息的可识别和解析,就必须记录保存当时网络信息资源的信息类型和处理标准。
  5.网络信息管理机制的保存。虽然,网络信息被保存了,但这些信息的使用原则是不相同的,这决定于网络信息的属性以及与之相对应的管理机制,比如:知识产权管理机制、信息安全机制、保密等级机制、屏蔽原则等等。这些是网络信息鉴别分析、合法使用的前提,是网络信息资源存储的可持续进行的基础。
  二、 网络信息资源保存过程
  1. 网络信息资源的采集。面对庞大的网络信息资源的采集,首先要划定信息收集的范围。通常情况下各国采集与本国有关的重要信息,范围条件包括:服务器的物理地址在本国;由本国组织、公民创作拥有;国家顶级域名;使用本国官方语言;研究价值;公众的关注度等。根据范围条件通过专门的采集软件对网络资源综合地进行采集。此外网络信息是在不断变化的,这就要求对于已采信息一段时间间隔后需要重新采集,以保证数据的连贯性。实践中可以发现有的网站内容更新较稳定,很少时时更新,更新周期较长;而有些网站特别是新闻网站,跟新速度极高。所以针对于不同的网络信息资源信息更新的时间概率应采用不同的间隔标准。
  1) 收到信息的甄别:采集的数据还要进行替旧和查重,替旧主要是在数据的再次采集的过程中发现数据较以前有修改,就记下修改信息并将信息更新为现有信息。查重是指在网页的采集过程中,网络信息的网址虽然不同但其内部的内容却是一样的,对于这样的信息,只需要记录简单的网址信息,而不需要记录全部的网络信息了。
  2) 甄别后信息的数据分离:在确定了要保存的信息资源后,数据还不能马上保存,还要进行数据的分离。从资源中分离出信息原始数据、动态联系特征、信息属性、信息类型与处理标准、信息管理机制。这是因为网络信息资源的价值不仅仅只局限于网络信息资源的内容本身,还包括这些网络信息资源形成的规则与机制。而且这些信息资源的规则和机制的价值往往远高于信息资源本身的价值。
  2. 网络信息资源的分级保存原则与介质选择。面对不断变化迅速增多的大量网络信息,完全保存是不可能的,即使已经进行了划定范围采集其数据量的庞大也是难以想象的。如何利用有限资源对网络信息进行,稳定高效安全的信息保存是十分必要的。对将保存信息依据研究价值、保存时效、数据位置的信息进行分级保存。比如:研究价值越高、保存时效越短、数据位置越趋近于普通用户主机的数据需要进行归档级的数据保存。采用专用的服务器集群保存,为数据集成做初步的数据保存,并在适当的时机对相应的数据信息进行数据挖掘,得出的规则进行永久保留,并应用到相应的网络信息资源保存的采集框架中;研究价值高、保存时效长、数据位置趋近于服务器的数据一般采用分布服务级。根据数据的物理位置选择最近的符合网络信息资源保存框架协议的分布式服务器进行保存;研究价值低、保存时效短、数据位置越趋近于普通用户主机的数据可以采用镜像级的数据保存。对于这类数据可采用只在附近的分布式服务器保存文件内容的方式;研究价值低、保存时效长数据位置趋近与服务器的数据可采用链接级。主要通过服务器集群记录相应数据资源的网络链接,并形成统一的查询目录,也可将目录分类或分布保存;研究价值低、保存时效长、数据位置越趋近于普通用户主机的数据可以采用检索工具级的数据保存。采用网络服务提供商的搜索引擎进行检索,可将检索指向相应的服务提供商,不保存相关数据,只记录服务提供商。
  3. 实现查询访问与管理。对于保存的数据其数据量和复杂性是十分巨大的,必须在消除数据的异性异构后,进行相应的分类,将一个庞大的数据库分成若干个相互独立的数据集合体,并对信息进行目录化管理,并建立统一的语义分解查询接口,以便提高相应的查询效率。在资源访问上,通过统一的语义分解查询接口可实现对不同分布数据的访问,同时针对访问的内容和所具备的查询权限进行匹配,否则只能访问标题类目。
  网络信息资源是一种文化资源,网络信息资源保存是一种社会公共事业,它结构体系的复杂程度、信息的庞大程度以及增长速度远不是一个企业、一个联盟所能承受的。必须通过有效的管理才能将这个体系构建起来。首先就是统一的体系标准,应由一定级别的政府组织相关部门形成统一的采集标准、保存策略、保存标准、分布原则、分级原则、权限划分,责任关系和合作框架,并形成相关法规,并从组织上保证法规的贯彻执行。
  (作者单位:中共黑龙江省委党校信息技术部)
其他文献
《雪国》是川端康成获得诺贝尔文学奖的代表作之一,作者以敏锐的感受,高超的叙事技巧,表现日本人的精神实质而让世界认识了“美丽的日本”.小说中凝聚了日本传统文学的悲与美
高中,是学生学习的重要阶段。高中班主任的管理工作质量,对于学生的学习效率以及心理健康都有着十分直接的影响。做好高中阶段的班主任管理工作,用合理的方式去激发学生的学习兴
“露子!”“哎,施艺!”我转过脸去,正迎着施艺灿烂的笑脸。  “快走吧。”我拉着她,挤过人群,直奔楼下。蓦地,猛一抬头,一眼看到的竟是爸爸!暮色中,他一人立在楼下,一手提着个大纸袋,双眼茫然凝视着另一方向。  “爸!”我叫了一声。  “啊--”他回头看到我,便急急走来,露出一种仿佛老友重逢般的笑容。“你的口琴和照片--在这里。喏,给你带了一盒月饼,”他指着礼盒,“过节嘛……”“爸!”我打断他,“这
期刊
城市如人,其性格往往决定了其形象。人之于城市,传承的是文化,凝聚出的是氛围,若之灵魂;城市之于人,搭载的是环境,营造出的是风貌,若之表象。二者相辅相成,造就的就是一个城市的城市意象。凯文.林奇的《城市意象》提到“对市民来说,他们的城市形式意味着什么?为使城市形象生动难忘,城市设计者应该做些什么?”  第一,历史。成都是个历史名城,这个城市的名称也阐述着这个城市的发展。所谓一年成聚,二年成邑,三年成
我国关于优先数字出版的研究和应用刚刚起步。对目前已发表的43篇文章进行调研和思考,从我国优先数字出版的编辑教育存在的问题、与国际期刊出版时滞的差距和原因分析、优先
【摘要】 物流业是近几年来发展最迅速的一个行业,并迅速建立了其在市场上的影响力。本文对中国物流产业现状、存在的问题等方面进行了剖析,并提出了具体改进措施。  【关键词】 中国物流业;现状分析;对策  在进入21世纪以后,以信息技术为基础的电子商务在全球迅速崛起,它对传统的商务运作模式、商品流通模式及人们的生活方式产生了广泛而深远的影响。在信息技术的支持下,发达国家的现代物流已经成为国民经济发展的重
期刊
本文通过分析Q&A在培训行业销售中的目的及作用,提出Q&A过程中需要挖掘的四大问题及相应的销售技巧,为实际销售工作提供指导性建议.
为探究吕家坨井田地质构造格局,根据钻孔勘探资料,采用分形理论和趋势面分析方法,研究了井田7
期刊
本文通过对荣华二采区10
期刊