论文部分内容阅读
一、开放数据环境下的档案工作
(一)开放数据的内涵
开放数据近些年来作为一个热点话题,有相当数量的研究成果,但是很多作者并没有对“开放数据”下一个严格的定义,大多是针对其开放性的描述。而关于开放数据,至今尚无统一标准的定义。常见的如以下几种观点。
吴旻在《开放数据在英、美政府中的应用及启示》中,采用了维基百科的定义:“开放数据是一种哲学理念及实践,要求数据可以被任何人自由获取,没有来自版权、专利或其他机制的限制。”开放知识基金会对开放数据的阐释:开放数据是一类可以被任何人免费使用、再利用、再分发的数据,在其限制上,顶多是要求署名和使用类似的协议再分发。相丽玲、王晴在文章中指出,“开放数据是一种自然属于或被许可进入公有领域,可以面向所有人自由使用或被授权利用、再利用和重新分配的数据”。李佳佳提出:“开放数据不是可供人们获取的数据,也不是免费的数据,它是总是被给予的数据,它依赖于见证者而存在。”侯人华、徐少同对美国联邦政府开放数据网站进行分析时,指出开放数据具有免费、非私有性、可再利用、合法性、数据格式多样性等特点。
要明确“开放数据”的定义,首先得明确开放数据的理论根源。如果为了“开放数据”而对数据进行开放,难免会遇到许多问题,如:数据的来源、数据的安全性等。开放数据旨在建立一个数据完全开放的世界,但是很多高价值的数据是不同的主体耗费了无数的精力才得到的,如果无条件的开放数据很容易对这些企业或者其他主体积极性造成损伤。在当前生产力水平下,无疑会产生消极的影响。
所以开放数据的主客体的界定都不是一个随意为之的事情。开放数据的目的是“数据共享”,以减少为获得数据过程中造成的资源浪费,同时以期形成数据共享的社会,促进社会的发展。“数据可以被任何人自由获取,没有来自版权、专利或其他机制的限制。”这样理想化的情况,在现行的制度下,是不可能行得通的。换句话说,在全世界未形成一个技术或者数据共同体的前提下,任何数据自由获取“开放数据”是不能形成的。
基于上述分析,本文对“开放数据”的定义,选取曹凌在《大数据创新:欧盟开放数据战略研究》一文中所提出的,开放数据是指公共机构产生、收集或支付的所有信息,包括地理信息数据、统计资料、气象资料,由政府资助的研究项目的数据。公共机构由国家出资,国家资金来源分为两部分,一是税收收入,二是国有企业上缴利润。而税收理应取之于民,用之于民,国有企业为全体人民所有,所以公共机构的“开放数据”具有合理性。
(二)开放数据与档案工作
在开放数据背景下,档案机构作为“公共服务机构”,为公民和法人提供数据服务,是具有合理性的。自从美国在2009年建立政府数据开放平台以来,世界多个国家政府也开始纷纷建立起自己的政府数据开放平台,向公众开放政府数据。
目前,我国的政府数据开放仍处在起步阶段,无论是在理论研究还是实践探索层面都与欧美国家有着相当大的差距。我国并没有统一的政府数据开放平台,仅有的政府数据开放平台也只是地方政府自己建设的地方性政府数据开放平台,无法满足全国公众的需要。中国不管在政策上、技术上还是在创新上都没有足够的保障来建立统一的政府数据开放平台。
在信息化時代,掌握了数据,也就相当于拥有了一座金矿。档案部门掌握这大量“高价值”的数据,但是因其身份的原因无法对这些数据进行完全的开发和利用。又因为数据的敏感性,让档案数据开放成为亟待研究的问题。档案部门应当充当怎样的角色,和公民、企业又当保持怎样的关系,如何找准自身所处的位置,是开放数据背景下不可避免的问题。而开放数据的大环境,也必然会给档案信息资源开发利用带来各方面的影响。
二、开放数据对档案信息资源开发主体的影响
(一)档案部门角色的变化
在传统档案视角下,档案工作既是信息的提供者,又是信息资源开发的主体。但是作为开发者,档案开发工作很难真实的了解需求者的意图,也就是需求不匹配的问题。然而在开放数据的语境下,不存在这样的问题。因为,在开放数据环境下,数据的需求者(用户)自身就是数据开发的主体,档案工作只起到信息提供的作用。
所以档案部门在档案信息资源开发的过程中,应当从“开发者”的身份跳出来,只作为原始数据的提供者或者相关开发工具的提供者。开放数据的视角下,政府机关等公共服务机构的数据都应向公众开放。而档案部门作为数据的保管者,理应牵头各部门制定开放数据的标准化程序。法律法规政策是开放数据的有力武器,走在开放数据运动前列的欧美国家已经制定了国家层面的开放数据政策和法令。在跳出“开发者”身份,充当法律法规的制定者的同时,档案部门应该肩负起档案真实性与完整性维护的重任。大概念的“档案信息资源”包括:公共安全、公共教育、文体休闲、科学技术等各个领域。档案部门应当对各个方面数据的真实性负重要职责。档案部门可以在数据的归档、收集和保存方面为其他机构提供方法指导,参与到开放数据中去,并指导其数据的发布。
(二)用户角色的再定位
信息化时代的到来,带来了大量的信息资源,但是档案部门作为信息资源的开发主体并没有对自身的开发手段做出相应的改变。硬件和软件的提升并没有给档案信息开发工作带来本质上的变化,是档案部门自身在完成“用户需求匹配”的工作。面对庞大的数据量和复杂的用户需求,这一问题日益凸显。
在这里,笔者想引入UGC的概念。UGC最早起源于web2.0时代,即用户将自己原创的内容通过互联网平台进行展示或者提供给其他用户。UGC本身其实就是用户根据自身需求,进行内容的开发和再生产的过程,然后进行分享。
传统的档案工作,由档案馆或者其他的档案机构进行开发工作,然后向社会公众进行开放。但档案部门的人力资源是有限的,并且难以做到用户需求的精确匹配。当下我们所讲的开放数据,本质上就是一个更广义的UGC模式。传统的UGC中,用户只负责上传资料,然后用户之间进行共享。但是在开放数据的环境下,用户不仅可以就内容进行共享,还可以对开发工具和模式等开发的全过程进行共享,而不只是对最后的结果进行共享。档案部门在开放数据的环境下,扮演的角色应当是UGC整个模式规则制定者,通过现有的“档案信息资源”去吸引用户加入其中,从而使档案部门从“开发者”的身份中跳出去,不在作为档案开发工作的主体存在。 从档案部门和用户分别在档案价值实现过程中所发挥的作用来看,档案部门在档案信息资源开发过程中可以利用馆藏资源做好档案信息资源开发的基础性工作,但不适宜作为档案信息资源开发的主体;而用户因其具备的档案信息需求动力和档案信息资源开发条件,在档案馆提供有序化档案信息资源的前提下,是可以承担起档案信息资源开发主体责任的。而这种开发主体从“档案部门”到“用户”的转变,正是开放数据最核心的理念。
三、开放数据对档案信息资源开发客体的影响
(一)档案形态的转变
开放数据给档案信息资源开发客体带来的第一个转变就是档案形态的数字化到数据化。为应对信息时代对于档案工作新要求,档案数字化的工作已经进行了多年,并在一定程度上解决了传统档案利用信息技术进行管理及共享的问题,收到了相当的成效。但数字化仅仅是解决了载体形式或者说是信息技术的应用问题,可以理解为档案工作对信息技术的适应性应用。
随着移动互联网、云计算、物联网等新兴技术的蓬勃发展和广泛应用,以及各种传感器的无所不在,信息技术已经可以将一切事物“数据化”。技术的革新势必给现有的档案存在形态带来冲击,数字化的档案已经不能满足用户的需求,对于对档案信息资源进行深入的数据挖掘与利用也是远远不够的。档案部门不能再被动地适应信息化发展需要,更应该主动根据档案信息利用需求,积极的完成档案数字化到数据化的转变。更要将档案的管理深入到数据层面,注重对数据本身的研究和开发利用。
(二)档案信息资源价值的转变
档案因其历史性和原始记录性构成信息资源体系中最具基础意义的部分,具有其他信息资源难以比拟的价值。有效开发档案信息资源是实现档案价值的前提条件,可以将档案由封闭的内部资源转化为流动的社会信息资源,为科学进步、社会全面发展服务。
在开放数据时代来临之前,档案的价值是由档案鉴定工作者完成的工作,且因为储存技术的原因要制定一个归档范围,即确定哪些要归档保存,哪些不需要归档保存;同时对归档保存的信息和数据要根据其价值确定不同的保管期限以节省人力和物力资源。随着物联网技术的普及、互联网时代媒体的网络化,各种信息的数据化。并且近些年来,储存设备的价格大幅下降,“将一切归档”成为可能。不同类型的“档案”对应不同的主体,也会体现不同的价值,不再是档案鉴定工作者的“一家之言”。所以档案信息资源的价值随着数据挖掘技术的应用而有了不同的解读,所有的信息管理者都面临着同样一个问题:即需要对自身所掌握的信息的价值有准确的理解。这对档案服务利用工作将是全新的挑战,这不仅仅要求能够灵活地运用各种技术挖掘档案数据中蕴含的价值,更需要档案工作者对于信息价值有着更为清晰的认识。
四、开放数据下档案信息资源开发途径的转变
我国档案工作已融入经济社会发展各领域,档案部门传统的复印、借阅、展览等提供利用方式显然已经无法满足公众的需求。开放数据的开展,要求档案部门能够根据用户需求,合理组织、整合馆藏档案数据,对海量的数据资源进行知识化输出,实现档案信息资源协同共享和信息增值服务。但目前为止,无论是编制档案馆藏目录、档案检索工具,还是编研出版史料汇集、文件汇集等都依赖于档案馆内工作人员。档案馆人力资源、资金投入及技术力量毕竟有限,馆内工作人员受精力、时间和知识储备的限制在面对海量的档案信息资源以及“并不容易”的开发工作时往往力不从心。
所以开放数据背景下,要积极探索档案信息资源开发的新途径。如檀竹茂在《档案信息资源开发的有效途径——协同合作》中提出,档案部门应该与社会外部力量的协同合作,协同合作可以实现不同资源拥有者之间的优势互补,是弥补档案部门自身力量不足、实现档案信息资源开发的有效途径。周文泓将公众参与的理念引入档案信息资源开发中,从立足开放政府建立公众参与制度、创建公众参与的组织架构与社区、设计与开放檔案信息资源体系、布局数字工具的应用策略、以最佳实践引领大众参与五个方面探讨如何构建公众参与的档案信息资源开发模式。在探索新途径之余,也要注重各级档案部门之间以及与其他信息机构之间数据的关联,为公众提供最全面的数据资源,消除网络数据孤岛。
档案部门作为国家核心的数据机构,档案部门应当牵头建立全国统一的“公共服务部门”数据开放平台,在开放数据的大环境下,迈出坚实的一小步,迎接“大一统”的开放数据时代的到来。
(作者单位:上海大学图书情报档案系)
(一)开放数据的内涵
开放数据近些年来作为一个热点话题,有相当数量的研究成果,但是很多作者并没有对“开放数据”下一个严格的定义,大多是针对其开放性的描述。而关于开放数据,至今尚无统一标准的定义。常见的如以下几种观点。
吴旻在《开放数据在英、美政府中的应用及启示》中,采用了维基百科的定义:“开放数据是一种哲学理念及实践,要求数据可以被任何人自由获取,没有来自版权、专利或其他机制的限制。”开放知识基金会对开放数据的阐释:开放数据是一类可以被任何人免费使用、再利用、再分发的数据,在其限制上,顶多是要求署名和使用类似的协议再分发。相丽玲、王晴在文章中指出,“开放数据是一种自然属于或被许可进入公有领域,可以面向所有人自由使用或被授权利用、再利用和重新分配的数据”。李佳佳提出:“开放数据不是可供人们获取的数据,也不是免费的数据,它是总是被给予的数据,它依赖于见证者而存在。”侯人华、徐少同对美国联邦政府开放数据网站进行分析时,指出开放数据具有免费、非私有性、可再利用、合法性、数据格式多样性等特点。
要明确“开放数据”的定义,首先得明确开放数据的理论根源。如果为了“开放数据”而对数据进行开放,难免会遇到许多问题,如:数据的来源、数据的安全性等。开放数据旨在建立一个数据完全开放的世界,但是很多高价值的数据是不同的主体耗费了无数的精力才得到的,如果无条件的开放数据很容易对这些企业或者其他主体积极性造成损伤。在当前生产力水平下,无疑会产生消极的影响。
所以开放数据的主客体的界定都不是一个随意为之的事情。开放数据的目的是“数据共享”,以减少为获得数据过程中造成的资源浪费,同时以期形成数据共享的社会,促进社会的发展。“数据可以被任何人自由获取,没有来自版权、专利或其他机制的限制。”这样理想化的情况,在现行的制度下,是不可能行得通的。换句话说,在全世界未形成一个技术或者数据共同体的前提下,任何数据自由获取“开放数据”是不能形成的。
基于上述分析,本文对“开放数据”的定义,选取曹凌在《大数据创新:欧盟开放数据战略研究》一文中所提出的,开放数据是指公共机构产生、收集或支付的所有信息,包括地理信息数据、统计资料、气象资料,由政府资助的研究项目的数据。公共机构由国家出资,国家资金来源分为两部分,一是税收收入,二是国有企业上缴利润。而税收理应取之于民,用之于民,国有企业为全体人民所有,所以公共机构的“开放数据”具有合理性。
(二)开放数据与档案工作
在开放数据背景下,档案机构作为“公共服务机构”,为公民和法人提供数据服务,是具有合理性的。自从美国在2009年建立政府数据开放平台以来,世界多个国家政府也开始纷纷建立起自己的政府数据开放平台,向公众开放政府数据。
目前,我国的政府数据开放仍处在起步阶段,无论是在理论研究还是实践探索层面都与欧美国家有着相当大的差距。我国并没有统一的政府数据开放平台,仅有的政府数据开放平台也只是地方政府自己建设的地方性政府数据开放平台,无法满足全国公众的需要。中国不管在政策上、技术上还是在创新上都没有足够的保障来建立统一的政府数据开放平台。
在信息化時代,掌握了数据,也就相当于拥有了一座金矿。档案部门掌握这大量“高价值”的数据,但是因其身份的原因无法对这些数据进行完全的开发和利用。又因为数据的敏感性,让档案数据开放成为亟待研究的问题。档案部门应当充当怎样的角色,和公民、企业又当保持怎样的关系,如何找准自身所处的位置,是开放数据背景下不可避免的问题。而开放数据的大环境,也必然会给档案信息资源开发利用带来各方面的影响。
二、开放数据对档案信息资源开发主体的影响
(一)档案部门角色的变化
在传统档案视角下,档案工作既是信息的提供者,又是信息资源开发的主体。但是作为开发者,档案开发工作很难真实的了解需求者的意图,也就是需求不匹配的问题。然而在开放数据的语境下,不存在这样的问题。因为,在开放数据环境下,数据的需求者(用户)自身就是数据开发的主体,档案工作只起到信息提供的作用。
所以档案部门在档案信息资源开发的过程中,应当从“开发者”的身份跳出来,只作为原始数据的提供者或者相关开发工具的提供者。开放数据的视角下,政府机关等公共服务机构的数据都应向公众开放。而档案部门作为数据的保管者,理应牵头各部门制定开放数据的标准化程序。法律法规政策是开放数据的有力武器,走在开放数据运动前列的欧美国家已经制定了国家层面的开放数据政策和法令。在跳出“开发者”身份,充当法律法规的制定者的同时,档案部门应该肩负起档案真实性与完整性维护的重任。大概念的“档案信息资源”包括:公共安全、公共教育、文体休闲、科学技术等各个领域。档案部门应当对各个方面数据的真实性负重要职责。档案部门可以在数据的归档、收集和保存方面为其他机构提供方法指导,参与到开放数据中去,并指导其数据的发布。
(二)用户角色的再定位
信息化时代的到来,带来了大量的信息资源,但是档案部门作为信息资源的开发主体并没有对自身的开发手段做出相应的改变。硬件和软件的提升并没有给档案信息开发工作带来本质上的变化,是档案部门自身在完成“用户需求匹配”的工作。面对庞大的数据量和复杂的用户需求,这一问题日益凸显。
在这里,笔者想引入UGC的概念。UGC最早起源于web2.0时代,即用户将自己原创的内容通过互联网平台进行展示或者提供给其他用户。UGC本身其实就是用户根据自身需求,进行内容的开发和再生产的过程,然后进行分享。
传统的档案工作,由档案馆或者其他的档案机构进行开发工作,然后向社会公众进行开放。但档案部门的人力资源是有限的,并且难以做到用户需求的精确匹配。当下我们所讲的开放数据,本质上就是一个更广义的UGC模式。传统的UGC中,用户只负责上传资料,然后用户之间进行共享。但是在开放数据的环境下,用户不仅可以就内容进行共享,还可以对开发工具和模式等开发的全过程进行共享,而不只是对最后的结果进行共享。档案部门在开放数据的环境下,扮演的角色应当是UGC整个模式规则制定者,通过现有的“档案信息资源”去吸引用户加入其中,从而使档案部门从“开发者”的身份中跳出去,不在作为档案开发工作的主体存在。 从档案部门和用户分别在档案价值实现过程中所发挥的作用来看,档案部门在档案信息资源开发过程中可以利用馆藏资源做好档案信息资源开发的基础性工作,但不适宜作为档案信息资源开发的主体;而用户因其具备的档案信息需求动力和档案信息资源开发条件,在档案馆提供有序化档案信息资源的前提下,是可以承担起档案信息资源开发主体责任的。而这种开发主体从“档案部门”到“用户”的转变,正是开放数据最核心的理念。
三、开放数据对档案信息资源开发客体的影响
(一)档案形态的转变
开放数据给档案信息资源开发客体带来的第一个转变就是档案形态的数字化到数据化。为应对信息时代对于档案工作新要求,档案数字化的工作已经进行了多年,并在一定程度上解决了传统档案利用信息技术进行管理及共享的问题,收到了相当的成效。但数字化仅仅是解决了载体形式或者说是信息技术的应用问题,可以理解为档案工作对信息技术的适应性应用。
随着移动互联网、云计算、物联网等新兴技术的蓬勃发展和广泛应用,以及各种传感器的无所不在,信息技术已经可以将一切事物“数据化”。技术的革新势必给现有的档案存在形态带来冲击,数字化的档案已经不能满足用户的需求,对于对档案信息资源进行深入的数据挖掘与利用也是远远不够的。档案部门不能再被动地适应信息化发展需要,更应该主动根据档案信息利用需求,积极的完成档案数字化到数据化的转变。更要将档案的管理深入到数据层面,注重对数据本身的研究和开发利用。
(二)档案信息资源价值的转变
档案因其历史性和原始记录性构成信息资源体系中最具基础意义的部分,具有其他信息资源难以比拟的价值。有效开发档案信息资源是实现档案价值的前提条件,可以将档案由封闭的内部资源转化为流动的社会信息资源,为科学进步、社会全面发展服务。
在开放数据时代来临之前,档案的价值是由档案鉴定工作者完成的工作,且因为储存技术的原因要制定一个归档范围,即确定哪些要归档保存,哪些不需要归档保存;同时对归档保存的信息和数据要根据其价值确定不同的保管期限以节省人力和物力资源。随着物联网技术的普及、互联网时代媒体的网络化,各种信息的数据化。并且近些年来,储存设备的价格大幅下降,“将一切归档”成为可能。不同类型的“档案”对应不同的主体,也会体现不同的价值,不再是档案鉴定工作者的“一家之言”。所以档案信息资源的价值随着数据挖掘技术的应用而有了不同的解读,所有的信息管理者都面临着同样一个问题:即需要对自身所掌握的信息的价值有准确的理解。这对档案服务利用工作将是全新的挑战,这不仅仅要求能够灵活地运用各种技术挖掘档案数据中蕴含的价值,更需要档案工作者对于信息价值有着更为清晰的认识。
四、开放数据下档案信息资源开发途径的转变
我国档案工作已融入经济社会发展各领域,档案部门传统的复印、借阅、展览等提供利用方式显然已经无法满足公众的需求。开放数据的开展,要求档案部门能够根据用户需求,合理组织、整合馆藏档案数据,对海量的数据资源进行知识化输出,实现档案信息资源协同共享和信息增值服务。但目前为止,无论是编制档案馆藏目录、档案检索工具,还是编研出版史料汇集、文件汇集等都依赖于档案馆内工作人员。档案馆人力资源、资金投入及技术力量毕竟有限,馆内工作人员受精力、时间和知识储备的限制在面对海量的档案信息资源以及“并不容易”的开发工作时往往力不从心。
所以开放数据背景下,要积极探索档案信息资源开发的新途径。如檀竹茂在《档案信息资源开发的有效途径——协同合作》中提出,档案部门应该与社会外部力量的协同合作,协同合作可以实现不同资源拥有者之间的优势互补,是弥补档案部门自身力量不足、实现档案信息资源开发的有效途径。周文泓将公众参与的理念引入档案信息资源开发中,从立足开放政府建立公众参与制度、创建公众参与的组织架构与社区、设计与开放檔案信息资源体系、布局数字工具的应用策略、以最佳实践引领大众参与五个方面探讨如何构建公众参与的档案信息资源开发模式。在探索新途径之余,也要注重各级档案部门之间以及与其他信息机构之间数据的关联,为公众提供最全面的数据资源,消除网络数据孤岛。
档案部门作为国家核心的数据机构,档案部门应当牵头建立全国统一的“公共服务部门”数据开放平台,在开放数据的大环境下,迈出坚实的一小步,迎接“大一统”的开放数据时代的到来。
(作者单位:上海大学图书情报档案系)