论文部分内容阅读
【摘要】 本文根據目前网络信息资源存在的流失现状,分析网络信息资源保存的需求,提出了保存网络信息的措施及其实现方法。
【关键词】 网络资源;信息资源;信息保存
随着计算机技术和信息通信技术的飞速发展,网络已成为现代社会的重要组成部分,人们时时刻刻都在网络上发布、浏览、查询信息。这种信息的形式是多样的,内容是复杂的,容量是庞大的。这些信息是文化的痕迹,在一定时间间隔内它的价值是不可估量的。但由于网络信息的动态性特点,这种信息的生命周期却是十分短暂的,据相关机构统计,一个网页的平均生命周期仅有44天,如何高质高效安全稳定的保留这些具有潜在价值的网络信息已经越来越受到国内外相关领域的重视。
一、 网络信息资源保存的需求分析
网络信息虽然形式多样、内容繁杂,但它仍是一种数字信息,同数字信息一样必须依赖众多技术、方法、工具和管理机制才能为人们所利用,所以在保存网络信息自身数据的同时,与其相关的技术、方法、工具和管理机制也应一并保存。这样网络信息资源的长期保存就必须满足以下需求:
1.网络信息原始数据的保存。网络信息的生命周期短和存储量庞大的特点,限定了网络信息资源的保存必须采用冗余备份的方式保存。由于现在网页的内容是多种多样的,有文字、图片、声音、图像等内容,其数据模式又大多是服务器/客户端模式,许多内容多是采用服务器请求调用的方式获取,很容易在保存的过程中,只是保存了信息的绝对连接或服务器请求命令。当再次打开保存后数据时很可能就会无法显示。这就要求在保存信息过程中必须将不同类型的信息完整的采集下来,并保证保存信息能被准确完好地读取。
2.网络信息动态联系特征的保存。网络信息具有传统信息所没有的动态性特点,网络信息从类型角度看,多是由脚本数据,表单数据,函数公式,链接数据,数学模型组成,其功能和表现形式多为导航,工具选项,交互式表格等。其显示的内容多根据访问网页第一时间浏览者的需求由服务器动态生成的,并非传统数据一成不变的。换句话说不同的人在网络上查询相同的信息可能得到的结果是完全不同的,但又都是正确的,它反映了信息与信息之间的联系,而这些信息正是现代网络信息的关键所在,比原始信息更重要的不是内容而是信息之间的联系。这种联系的保存是网络信息的难点,而这些信息的丢失将导致网络信息的灵魂消失。
3.网络信息属性的保存。网络信息的属性包括:出处,时间,作者,来源,性质,类别,关键字等等。通过这些信息的保存能追溯相关信息的来源与历史,确认信息的真实、可信和完整性。同时,可通过此种方式针对现代网络信息进行信息查重、内容校验、身份认证、版本演变、知识产权认定。所以,保存网络信息的属性,对于真实、完整地保存网络信息是十分必要的。
4.信息类型与处理标准的保存。随着网络技术的不断发展,新技术,新标准,新类型,新模型不断涌现,同时,旧的标准也在不断被替代,由于网络信息资源的多样性,在进行保存的过程当中,不同时期的网络信息中的信息编码、字符格式、网络标记、体系结构、压缩方式、加密算法等方面的技术标准是不同的,要确保在一定时间跨度上不同网络信息的可识别和解析,就必须记录保存当时网络信息资源的信息类型和处理标准。
5.网络信息管理机制的保存。虽然,网络信息被保存了,但这些信息的使用原则是不相同的,这决定于网络信息的属性以及与之相对应的管理机制,比如:知识产权管理机制、信息安全机制、保密等级机制、屏蔽原则等等。这些是网络信息鉴别分析、合法使用的前提,是网络信息资源存储的可持续进行的基础。
二、 网络信息资源保存过程
1. 网络信息资源的采集。面对庞大的网络信息资源的采集,首先要划定信息收集的范围。通常情况下各国采集与本国有关的重要信息,范围条件包括:服务器的物理地址在本国;由本国组织、公民创作拥有;国家顶级域名;使用本国官方语言;研究价值;公众的关注度等。根据范围条件通过专门的采集软件对网络资源综合地进行采集。此外网络信息是在不断变化的,这就要求对于已采信息一段时间间隔后需要重新采集,以保证数据的连贯性。实践中可以发现有的网站内容更新较稳定,很少时时更新,更新周期较长;而有些网站特别是新闻网站,跟新速度极高。所以针对于不同的网络信息资源信息更新的时间概率应采用不同的间隔标准。
1) 收到信息的甄别:采集的数据还要进行替旧和查重,替旧主要是在数据的再次采集的过程中发现数据较以前有修改,就记下修改信息并将信息更新为现有信息。查重是指在网页的采集过程中,网络信息的网址虽然不同但其内部的内容却是一样的,对于这样的信息,只需要记录简单的网址信息,而不需要记录全部的网络信息了。
2) 甄别后信息的数据分离:在确定了要保存的信息资源后,数据还不能马上保存,还要进行数据的分离。从资源中分离出信息原始数据、动态联系特征、信息属性、信息类型与处理标准、信息管理机制。这是因为网络信息资源的价值不仅仅只局限于网络信息资源的内容本身,还包括这些网络信息资源形成的规则与机制。而且这些信息资源的规则和机制的价值往往远高于信息资源本身的价值。
2. 网络信息资源的分级保存原则与介质选择。面对不断变化迅速增多的大量网络信息,完全保存是不可能的,即使已经进行了划定范围采集其数据量的庞大也是难以想象的。如何利用有限资源对网络信息进行,稳定高效安全的信息保存是十分必要的。对将保存信息依据研究价值、保存时效、数据位置的信息进行分级保存。比如:研究价值越高、保存时效越短、数据位置越趋近于普通用户主机的数据需要进行归档级的数据保存。采用专用的服务器集群保存,为数据集成做初步的数据保存,并在适当的时机对相应的数据信息进行数据挖掘,得出的规则进行永久保留,并应用到相应的网络信息资源保存的采集框架中;研究价值高、保存时效长、数据位置趋近于服务器的数据一般采用分布服务级。根据数据的物理位置选择最近的符合网络信息资源保存框架协议的分布式服务器进行保存;研究价值低、保存时效短、数据位置越趋近于普通用户主机的数据可以采用镜像级的数据保存。对于这类数据可采用只在附近的分布式服务器保存文件内容的方式;研究价值低、保存时效长数据位置趋近与服务器的数据可采用链接级。主要通过服务器集群记录相应数据资源的网络链接,并形成统一的查询目录,也可将目录分类或分布保存;研究价值低、保存时效长、数据位置越趋近于普通用户主机的数据可以采用检索工具级的数据保存。采用网络服务提供商的搜索引擎进行检索,可将检索指向相应的服务提供商,不保存相关数据,只记录服务提供商。
3. 实现查询访问与管理。对于保存的数据其数据量和复杂性是十分巨大的,必须在消除数据的异性异构后,进行相应的分类,将一个庞大的数据库分成若干个相互独立的数据集合体,并对信息进行目录化管理,并建立统一的语义分解查询接口,以便提高相应的查询效率。在资源访问上,通过统一的语义分解查询接口可实现对不同分布数据的访问,同时针对访问的内容和所具备的查询权限进行匹配,否则只能访问标题类目。
网络信息资源是一种文化资源,网络信息资源保存是一种社会公共事业,它结构体系的复杂程度、信息的庞大程度以及增长速度远不是一个企业、一个联盟所能承受的。必须通过有效的管理才能将这个体系构建起来。首先就是统一的体系标准,应由一定级别的政府组织相关部门形成统一的采集标准、保存策略、保存标准、分布原则、分级原则、权限划分,责任关系和合作框架,并形成相关法规,并从组织上保证法规的贯彻执行。
(作者单位:中共黑龙江省委党校信息技术部)
【关键词】 网络资源;信息资源;信息保存
随着计算机技术和信息通信技术的飞速发展,网络已成为现代社会的重要组成部分,人们时时刻刻都在网络上发布、浏览、查询信息。这种信息的形式是多样的,内容是复杂的,容量是庞大的。这些信息是文化的痕迹,在一定时间间隔内它的价值是不可估量的。但由于网络信息的动态性特点,这种信息的生命周期却是十分短暂的,据相关机构统计,一个网页的平均生命周期仅有44天,如何高质高效安全稳定的保留这些具有潜在价值的网络信息已经越来越受到国内外相关领域的重视。
一、 网络信息资源保存的需求分析
网络信息虽然形式多样、内容繁杂,但它仍是一种数字信息,同数字信息一样必须依赖众多技术、方法、工具和管理机制才能为人们所利用,所以在保存网络信息自身数据的同时,与其相关的技术、方法、工具和管理机制也应一并保存。这样网络信息资源的长期保存就必须满足以下需求:
1.网络信息原始数据的保存。网络信息的生命周期短和存储量庞大的特点,限定了网络信息资源的保存必须采用冗余备份的方式保存。由于现在网页的内容是多种多样的,有文字、图片、声音、图像等内容,其数据模式又大多是服务器/客户端模式,许多内容多是采用服务器请求调用的方式获取,很容易在保存的过程中,只是保存了信息的绝对连接或服务器请求命令。当再次打开保存后数据时很可能就会无法显示。这就要求在保存信息过程中必须将不同类型的信息完整的采集下来,并保证保存信息能被准确完好地读取。
2.网络信息动态联系特征的保存。网络信息具有传统信息所没有的动态性特点,网络信息从类型角度看,多是由脚本数据,表单数据,函数公式,链接数据,数学模型组成,其功能和表现形式多为导航,工具选项,交互式表格等。其显示的内容多根据访问网页第一时间浏览者的需求由服务器动态生成的,并非传统数据一成不变的。换句话说不同的人在网络上查询相同的信息可能得到的结果是完全不同的,但又都是正确的,它反映了信息与信息之间的联系,而这些信息正是现代网络信息的关键所在,比原始信息更重要的不是内容而是信息之间的联系。这种联系的保存是网络信息的难点,而这些信息的丢失将导致网络信息的灵魂消失。
3.网络信息属性的保存。网络信息的属性包括:出处,时间,作者,来源,性质,类别,关键字等等。通过这些信息的保存能追溯相关信息的来源与历史,确认信息的真实、可信和完整性。同时,可通过此种方式针对现代网络信息进行信息查重、内容校验、身份认证、版本演变、知识产权认定。所以,保存网络信息的属性,对于真实、完整地保存网络信息是十分必要的。
4.信息类型与处理标准的保存。随着网络技术的不断发展,新技术,新标准,新类型,新模型不断涌现,同时,旧的标准也在不断被替代,由于网络信息资源的多样性,在进行保存的过程当中,不同时期的网络信息中的信息编码、字符格式、网络标记、体系结构、压缩方式、加密算法等方面的技术标准是不同的,要确保在一定时间跨度上不同网络信息的可识别和解析,就必须记录保存当时网络信息资源的信息类型和处理标准。
5.网络信息管理机制的保存。虽然,网络信息被保存了,但这些信息的使用原则是不相同的,这决定于网络信息的属性以及与之相对应的管理机制,比如:知识产权管理机制、信息安全机制、保密等级机制、屏蔽原则等等。这些是网络信息鉴别分析、合法使用的前提,是网络信息资源存储的可持续进行的基础。
二、 网络信息资源保存过程
1. 网络信息资源的采集。面对庞大的网络信息资源的采集,首先要划定信息收集的范围。通常情况下各国采集与本国有关的重要信息,范围条件包括:服务器的物理地址在本国;由本国组织、公民创作拥有;国家顶级域名;使用本国官方语言;研究价值;公众的关注度等。根据范围条件通过专门的采集软件对网络资源综合地进行采集。此外网络信息是在不断变化的,这就要求对于已采信息一段时间间隔后需要重新采集,以保证数据的连贯性。实践中可以发现有的网站内容更新较稳定,很少时时更新,更新周期较长;而有些网站特别是新闻网站,跟新速度极高。所以针对于不同的网络信息资源信息更新的时间概率应采用不同的间隔标准。
1) 收到信息的甄别:采集的数据还要进行替旧和查重,替旧主要是在数据的再次采集的过程中发现数据较以前有修改,就记下修改信息并将信息更新为现有信息。查重是指在网页的采集过程中,网络信息的网址虽然不同但其内部的内容却是一样的,对于这样的信息,只需要记录简单的网址信息,而不需要记录全部的网络信息了。
2) 甄别后信息的数据分离:在确定了要保存的信息资源后,数据还不能马上保存,还要进行数据的分离。从资源中分离出信息原始数据、动态联系特征、信息属性、信息类型与处理标准、信息管理机制。这是因为网络信息资源的价值不仅仅只局限于网络信息资源的内容本身,还包括这些网络信息资源形成的规则与机制。而且这些信息资源的规则和机制的价值往往远高于信息资源本身的价值。
2. 网络信息资源的分级保存原则与介质选择。面对不断变化迅速增多的大量网络信息,完全保存是不可能的,即使已经进行了划定范围采集其数据量的庞大也是难以想象的。如何利用有限资源对网络信息进行,稳定高效安全的信息保存是十分必要的。对将保存信息依据研究价值、保存时效、数据位置的信息进行分级保存。比如:研究价值越高、保存时效越短、数据位置越趋近于普通用户主机的数据需要进行归档级的数据保存。采用专用的服务器集群保存,为数据集成做初步的数据保存,并在适当的时机对相应的数据信息进行数据挖掘,得出的规则进行永久保留,并应用到相应的网络信息资源保存的采集框架中;研究价值高、保存时效长、数据位置趋近于服务器的数据一般采用分布服务级。根据数据的物理位置选择最近的符合网络信息资源保存框架协议的分布式服务器进行保存;研究价值低、保存时效短、数据位置越趋近于普通用户主机的数据可以采用镜像级的数据保存。对于这类数据可采用只在附近的分布式服务器保存文件内容的方式;研究价值低、保存时效长数据位置趋近与服务器的数据可采用链接级。主要通过服务器集群记录相应数据资源的网络链接,并形成统一的查询目录,也可将目录分类或分布保存;研究价值低、保存时效长、数据位置越趋近于普通用户主机的数据可以采用检索工具级的数据保存。采用网络服务提供商的搜索引擎进行检索,可将检索指向相应的服务提供商,不保存相关数据,只记录服务提供商。
3. 实现查询访问与管理。对于保存的数据其数据量和复杂性是十分巨大的,必须在消除数据的异性异构后,进行相应的分类,将一个庞大的数据库分成若干个相互独立的数据集合体,并对信息进行目录化管理,并建立统一的语义分解查询接口,以便提高相应的查询效率。在资源访问上,通过统一的语义分解查询接口可实现对不同分布数据的访问,同时针对访问的内容和所具备的查询权限进行匹配,否则只能访问标题类目。
网络信息资源是一种文化资源,网络信息资源保存是一种社会公共事业,它结构体系的复杂程度、信息的庞大程度以及增长速度远不是一个企业、一个联盟所能承受的。必须通过有效的管理才能将这个体系构建起来。首先就是统一的体系标准,应由一定级别的政府组织相关部门形成统一的采集标准、保存策略、保存标准、分布原则、分级原则、权限划分,责任关系和合作框架,并形成相关法规,并从组织上保证法规的贯彻执行。
(作者单位:中共黑龙江省委党校信息技术部)