大数据视阈下档案学研究的困境和启示

来源 :北京档案 | 被引量 : 0次 | 上传用户:dongfa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:基于对CNKI档案类期刊的统计分析,本文探讨了大数据在我国档案领域内的研究现状,分析当前档案管理技术同非结构化的数据管理、资源转化效率同发挥档案的潜在价值、数据挖掘深度同个性化的用户利用需求之间的困境,并结合大数据理论指出其带给档案学研究的相关启示。
  关键词:大数据档案学研究统计分析档案管理
  Abstract:Based on the statistical analysis of ar? chive journals from CNKI, the paper discusses the research status of big data in the field of archives and points out the dilemma between archives man? agement technologies and unstructured data man? agement, resources conversion rate and exertion of potential value of archives, depth of data mining and personalized user needs. The paper also bring out some relevant enlightenment combined with big data theory.
  Keywords:Big data;Archives science study; Statistical analysis; Archives management
  所谓“大数据”,是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。它不单单指字面意义上规模庞大的数据量和数据集合,在认知和应用过程中更应将其理解为一种思维和管理方式,一种新的技术和数据管理视角。其实,无论将大数据看作复杂的数据集合,还是数据管理的思维方式,它的出现都是由数据的量变积累到一定程度引发的“质变”。近年来,各行业研究的重点都集中在“大数据”上,档案学的相关研究也开始聚焦大数据。我国档案学领域明确提出有关大数据的研究是在2012年,目前相关研究仍然集中在档案领域对大数据本身的认知上。鉴于此,本文从大数据在我国档案领域内的发展入手,并结合CNKI档案类期刊的共词聚类分析,探讨大数据对档案学研究带来的机遇和困境以及对我国档案事业发展的思考。
  一、基于档案大数据研究的统计分析
  (一)数据获取及处理
  以CNKI中国学术期刊全文数据库为来源,以“大数据”和“档案”为主题进行检索。截至2016年5月,检索到2011~2016年的相关文献共计501篇。笔者从中选取研究的核心样本,并以此为依据分析档案学领域大数据研究的总体现状与核心热点。首先从501篇文献中剔除重复条目以及与档案大数据研究明显无关的学术论文和新闻报道后,得到文献456篇。然后,再按照来源刊物对456篇文献进行筛选,勾选出文献来源为档案类期刊、大学学报以及档案学相关会议和学位论文的,共得到281篇文献。最终以281篇文献样本作为档案学研究的核心样本,统计高频关键词。剔除“大数据”(99次)与“档案”(21次)后,得到排名前十位的高频关键词,其分别为档案信息(39)、档案管理(39)、档案数字化(32)、档案工作(26)、数字档案馆(22)、档案利用(19)、物联网(17)、档案事业(15)、信息技术(14)、档案管理模式(13)。
  (二)关键词分析
  共词聚类分析法,是通过对文献集合中“词汇对”共同出现的情况来构建共词矩阵,然后对矩阵进行聚类分析,从而确定该文献集合与所代表主题之间的关系,进而描述该学科的研究热点和发展趋势。为了较好地归纳出研究重点,在进行共词聚类分析时,先要找出关键词,进而构建共词矩阵。
  1.构建矩阵。对核心样本所统计出的高频关键词两两配对,统计其在样本文献中出现的频率,建立共词矩阵,如表1所示。
  利用Ochiia系数,将共词矩阵转换为相关矩阵,以减少统计频次的悬殊对分析结果所造成的影响。矩阵中的数字表示两个词之间的相关度,数值越大,表示二者之间的相关程度越高。其中,相关度较高的有档案信息与档案数字化(0.3963)、档案信息与物联网(0.3107)等。如表2所示。
  2.聚类分析。在以高频关键词为基础建立的共词和相关矩阵上,利用SPSS软件对其进行聚类分析,可以得出在大数据背景下我国档案学研究的聚焦点和关联点。将表2的相关矩阵导入SPSS进行层次聚类分析,选择“组间平均链锁距离”,生成平均联接树状图。该方法能够将关系密切的对象聚合到一个小分类,稍远的聚合成大分类,最终形成一个树状系统。从图1中可以看到,关键词1(档案信息)和3(档案数字化)二者距离最近、关联最紧密,可聚合为一类;稍远的组合有关键词2(档案管理)和4(档案工作)、6(档案利用)和7(物联网),这两组分别合并后又汇聚成一个研究大类。
  3.结论分析。通过共词聚类分析,可以将目前研究热点归为以下几类:(1)档案数字化及资源管理(关键词1、3和5)。大数据背景下我国档案学研究所关注的首先是作为基础的档案资源管理,主要是针对数字档案馆、档案数据库存储以及电子文件管理等方面的探讨,同时也涉及对非结构化信息及各类电子文件如何统一标准的问题研究。(2)档案价值开发及利用(2、4、6和7)。从档案人、档案资源开发整合以及档案相关信息技术等角度,实现对档案资源的多元化开发,这些开发在该大类中显得较为突出。另外,物联网等技术不可避免地将成为未来档案价值实现的途径。(3)档案事业及档案管理模式(关键词5、8、9和10)。与相关矩阵所反映问题类似的是,我国档案领域的大数据研究集中在档案工作与管理的宏观思想上,偏重管理模式创新实践和业务探讨。尤其是在城建和高校档案等领域对档案管理全过程的理论探讨与模式创新经久不衰。   综上所述,我国档案学领域对大数据的研究总体还处在起步和探索阶段,偏重对实践业务工作的探讨,而档案资源开发利用和基础理论研究的底子相对薄弱。究其原因,这与我国档案学发展现状在技术、思维和资源层面所存在的问题密切相关。
  二、大数据背景下我国档案学研究的困境
  大数据既为档案资源管理提供了良好的发展机遇,又不可避免地凸显出我国档案学研究领域的困境。基于上述大数据相关研究的统计和共词聚类分析结果,笔者对核心样本的研究内容做了深入的归纳总结,结合我国的档案管理现状不难发现,在该领域的关注焦点同时也正是档案学目前亟须解决的问题所在——档案资源管理及数字化、档案的价值转化与开发利用以及档案数据挖掘和个性化服务模式。从这个角度而言,笔者认为我国档案学研究在大数据背景下存在以下三大困境:
  (一)现有的档案管理技术难以解决非结构化的数据管理
  作为人类社会信息资源的“最终归宿”,档案的存储和管理始终是档案工作的重中之重。尤其在信息时代数据规模呈几何级增长,数据结构也开始变得复杂化和多样化,来源丰富且非结构化的碎片数据对传统数据库造成了极大冲击。以目前我国档案管理水平的现状而言,涉及大数据核心的分布式存储和并行处理等相关的云技术还没有得到普及利用,异构数据的互联互通问题还没有得到妥善解决,档案工作的管理实践还没有跟上技术发展,这种档案管理思维和技术的相对滞后直接导致了现有档案管理水平同档案管理需求之间的矛盾。
  (二)现有的资源转化效率难以发挥档案大数据的潜在价值
  就我国档案馆目前的资源转化和利用现状而言,一方面档案的数字化进程还处于建设时期,对大多数实体档案的利用依旧只能停留在人工挖掘档案价值的阶段,难度较大且标准各异;另一方面,现有的档案存储容量限制、管理成本限制和保管期限表的鉴定机制决定了部分低值档案需要定期销毁。对于这部分档案而言,大多在还没有达到凸显其潜在价值的外部环境时便已进入了死亡期。从长远角度看,这部分档案并非是因完全失去利用价值而被销毁的,只是在现有的技术条件和鉴定标准下无法发挥其潜在价值。正是上述两方面的问题使得我国档案馆的资源转化率长期处于较低的水平,在数据规模更加膨胀的今天,这样的不相匹配将很难发挥档案作为社会真实历史记录所蕴含的巨大潜在价值。
  (三)现有的数据挖掘深度难以支撑个性化的用户利用需求
  随着对信息资源关注的深入,公众对档案的开放和利用提出更多个性化的需求。进入大数据时代后,馆藏中越来越多的档案资源将不再作为“最终产品”直接面向公众,而是逐渐转变为基础资源,并协同其他相关的信息资源一起,经过更深层次的数据挖掘和分析,形成新的知识供其利用。但反观当前我国档案馆的情况,对大数据相关技术的研究和应用起步略晚,大多数档案馆的主要职能仍旧停留在以“保管为主”的档案资源管理模式上,档案资源的整合加工和统计分析较少涉及,这样的模式将很难满足新时期公众对档案开放利用的个性化需求。
  三、大数据对档案学相关研究的启示
  从CNKI来源的期刊统计分析可知,目前我国档案事业的大数据研究更多地集中在应用领域,在理论基础上显得相对薄弱。但是,仍然可以看到的是:“大数据时代科研范式的转变促使数据利用和服务的需求也相应发生了变化。”在这样的背景下,结合大数据背景下档案管理的挑战和困境,从用户需求出发,探索大数据的基础理论和档案学相关理论的结合点,是能够对档案学的相关研究以及档案馆的发展有所启示的。
  (一)大数据对“相关关系”的探索,或将拓宽全宗内部档案及全宗之间的关系边界
  同一来源的档案往往保持密切的关联性,从宏观角度来看,过去所收集的全宗内部各主题或年份的档案之间形成的是一个小型相关的关系网络。目前对档案的管理也更多地集中在全宗内部的这个关系网络里,然而大数据的出现加深了对“相关关系”的探索,拓宽了关系联结的边界。在对海量信息的处理过程中,全宗之间一些微弱、隐秘的“相关关系”开始有能力被挖掘出来并表现出一定的价值。通过这些“相关关系”的联结点,档案馆不仅可以强化全宗内档案的垂直关联性,甚至也可以在全宗与全宗之间建立起相应的横向交流关系联结,从而打造出一个畅通无阻的档案信息资源集成网络。如此一来,档案工作者完全可以通过档案管理系统对馆内档案信息资源有一个更加系统、直观和全面的认知,从而为档案的搜集整理和检索利用创造更加高效的体系,提供更多的便利。
  (二)大数据对全数据的关注,或将延长非永久保存电子档案的保管期限
  过去档案保管期限的设置受到档案自身价值和外部环境因素(档案馆的馆藏空间、容量以及其他相关条件)的影响,需要定期对不具有永久保存价值的档案进行销毁。随着科学技术的进步,电子档案逐渐取代纸质档案成为档案资源的主力军;而大数据的支撑技术又恰好解决了大规模数据的存储和处理问题,这也就意味着档案馆的数字化进程已无存储空间和馆藏限制的后顾之忧。与此同时,基于随机采样的统计分析方法缺乏延展性的弊端,大数据思维开始倡导建立“样本=总体”的全数据信息库,利用其强大的数据分析功能针对事实数据本身而非随机样本去进行计算和分析。这样,在档案学研究的领域里,档案价值鉴定的标准和体系将会随着“全数据”模式的出现而受到强烈冲击。对于那些即便达到保管期限、看起来价值甚微的抑或是存在错误、残缺不全的电子文件,都有可能会被发掘出新的潜在价值,并且应该在“全数据”模式下的数字档案馆内获得一席之地,而不再受到保管期限的过多约束。
  (三)大数据对关联数据进行共享和深度挖掘的需求,或将反作用于现有的档案信息咨询服务模式
  目前的档案信息咨询服务仍处于“你问我答,你用我取”的被动模式,用户对档案的利用需求往往受限于档案馆现有的载体形态和馆藏资源,尚且无法得到综合性的档案信息和统计结果。在大数据时代,数据化的电子档案将逐步替代纸质档案和数字化档案成为主流。通过利用大数据对碎片化档案信息的收集整理以及对相关数据信息的共享与深度挖掘,档案馆一方面可以结合用户在互联网中的社交关系,打破社交媒体同档案馆之间所存在的共享缺陷,并把碎片化、非结构化的信息资源(包括用户在社交媒体上的行为数据)整合转化为全面的量化数据,从而提前对用户的利用行为和需求做出分析和预判,变被动提供为主动“出击”。另一方面,这种对数据化信息的共享和深入挖掘可以在实际提供利用时,根据用户提出的要求,在满足用户基本信息需求的前提下主动向用户展示综合性的统计分析结果而非简单的档案调阅。同时,在大数据强大的数据关联和分析能力中加入用户反馈,实现档案咨询的智能改进将不再遥远。目前,韩国国家档案馆便在此基础上借助信息技术的发展和用户服务的推进,成功开发出了大数据时代下基于社交网络的档案信息服务新模式。
  参考文献:
  [1]樊树娟.大数据时代的社会变革与档案职业发展探析[J].档案管理,2014(10):17-19.
  [2](英)维克托·迈尔-舍恩伯格,肯尼斯·库克耶.大数据时代:生活、工作与思维的大变革[M].杭州:浙江人民出版社,2013:29-71.
  [3]陈玲霞,田湘平.大数据时代档案资源管理探讨[J].云南档案,2014(10):50.
  [4]储节旺,郭春侠.共词分析法的基本原理和EX? CEL实现[J].情报科学,2011(6):932-934.
  [5]李长玲,翟雪梅.我国情报学硕士学位论文的共词聚类分析[J].情报科学,2008(1):73-76.
  [6]张健.档案数据库“胀库”问题研究[J].档案学通讯,2012(4):50-51.
  [7]王建亚.大数据背景下档案工作的机遇、趋势与挑战[J].北京档案,2014(5):25-27.
  [8]周枫.国内档案学领域“大数据”研究述评[J].档案,2014(6):9-12.
  [9]刘守华.迎接大数据时代的呼啸而来[J].中国档案,2013(11):1.
  [10]吴丹,于文婷.近五年国内外图书情报学教育研究进展与趋势[J].图书情报知识,2015(3):4-12.
  [11]王兰成.大数据环境下档案与图书情报信息集成服务机制的构建[J].档案与建设,2014(12):4-7.
  [12]武云.利用大数据创新档案管理模式和提升服务能力[J].档案与建设,2015(1):35.
  [13]张峻山.基于社交网络的档案信息服务新模式——韩国国家档案馆的实践[J].档案与建设,2015(7):35-38.
其他文献
记 者:劳动教育近年来成了教育热点。请结合多年来分管中小学生劳动教育工作的实践,简要谈谈您对劳动教育的内涵及其与学农教育的关系等有关热点问题的理解与认识。  程文华:近年来,党和国家高度重视劳动教育。习近平总书记提出了关于劳动教育的系列新论述新论断,如“劳动是一切幸福的源泉”“要在学生中弘扬劳动精神,教育引导学生崇尚劳动、尊重劳动,懂得劳动最光荣、劳动最崇高、劳动最伟大、劳动最美丽的道理”“劳动
东城区档案局抓细落实机构改革档案工作一是明确重点单位。在调查全区单位变更和职责调整情况的基础上,把涉改单位列为指导重点,同时把职责调整较多和不再保留的单位列为重中之重。二是明确人员分工。对全部涉改单位和新组建单位要求监督指导责任落实到人。三是明确业务要求。密切关注涉改单位档案人员调整、交接情况,对库房调整、档案搬迁的单位提出选址、设备配备和安全保管运送要求,确保机构改革单位档案工作安全规范有序运转
摘要:杨氏鹰神祭属于黑龙江省省级非物质文化遗产,因此杨氏家族的祭祀仪式、家谱修复受到了多方关注。杨氏家族现存的家谱有三版,其家谱的保存、恢复和利用过程,体现出东北地区满族家谱档案传承中所具有的共性特征。杨氏家谱档案的利用彰显了满族家谱档案所具有的两个功能:象征祖先归属,成为祭拜的对象;记录人口信息,成为社交婚姻的依据。  关键词:宁安杨氏家族家谱修复利用  杨氏家族现居黑龙江省宁安市兰岗镇东升村,
火红的六月,火热的情怀。在密云区各机关单位、行政村、街道、社区等办公场所整齐地张贴着档案法治宣传挂图,在热闹的农村集市上过往群众纷纷领取档案法治宣传材料,在黑龙潭等主要景区的道路两边赫然悬挂着“档案是财富、人人要爱护”等红色宣传条幅……檀州大地涌起了档案潮。  领导重视突出重点档案法治宣传“一盘棋”  加强档案法治建设是实现依法治档战略目标的基本要求。近年来,密云区档案局按照北京市档案法治建设的总
今年11月12日是我国伟大的革命先行者孙中山先生诞辰150周年。在孙中山先生早期的革命生涯中,有一段流亡海外的经历,这段经历见证了他对中国民主革命锐意探索的过程和三民主义思想的形成过程,特别是在伦敦的一段被捕蒙难的遭遇使得孙中山先生的人生经历变得更加曲折而传奇。笔者专门查阅了相关档案和资料,对孙中山先生的这段蒙难经历作详细解读。  一、早期档案解读孙中山先生流亡起因和在美辗转经历  (一)起义失败
2013年春夏之交,一位70多岁的老先生从《北京青年报》的报道中得知北京市档案馆正在征集市级以上劳动模范的档案资料,他的心情格外激动。他迫不及待地拨通了市档案馆的电话,表达了自己作为市劳动模范愿意将自己一生的档案资料捐赠给国家、留给子孙后代的愿望,他就是1960年的北京市劳动模范业余教师陈震洪先生。在此后与老先生接触的一年时间中,每当档案馆工作人员登门拜访,或是了解情况、或是分期分批接受捐赠档案、
区档案局按照权力清单编制的类别和范围,以现行档案法律、法规作为根据,将我局负责的行政权力进一步细化为具体的职权事项,逐项列明设定依据、法定行使主体及运行流程,并以清单形式列出来,保证各项权力不漏报、不错报、不重复。同时,按照职权法定、简政放权、转变机关职能的要求,对我局行使的各项行政职权进行调整,并对取消的非行政审批事项逐一制定了事中事后监管措施。(钱睿)  昌平区兴寿镇机关通过测评验收成为档案工
摘要:本文利用SWOT分析法得出档案部门开展方言档案式保护的优势、劣势、机会和威胁,进而从方言建档、档案保管和档案开发三个方面提出方言档案式保护的实现策略。  关键词:档案式保护SWOT分析方言  一、我国方言的生存现状及其档案式保护释义  (一)我国方言的生存现状  我国是一个方言大国,方言种类极为丰富,境内有北方、吴、湘、赣、客家、粤、闽七大汉语方言。[1]方言作为语言的变体,是我国语言资源的
提及北京,人们通常会想到故宫、颐和园、天坛等气势恢宏的皇家建筑。的确,作为元、明、清三朝的政治文化中心,北京形成了独具一格的皇城文化。但是,皇城文化只是北京的特色而非全部,与之鼎足而立的还有士人文化、平民文化,以及衍生而来传统商业文化、民俗文化、坛庙文化等,它们共同构成了北京多元的文化形态。其中,士作为国家政治的直接参与者,又是传统文化的创造者、传承者,他们身上承载的士人文化是北京文化的重要组成部
房山区退休老干部向区档案馆捐赠档案资料在前不久的“档案馆日”活动中,房山区良乡医院退休老干部刘渭臣向区档案馆捐赠了一批档案资料。其内容包括毛泽东同志接见外宾专题剪报1本;毛泽东、周恩来、朱德、邓小平、叶剑英等同志工作活动专题剪报1本;国家领导人和社会各界知名人士逝世报道专题剪报4本及《奥运百年》等书籍4本。(高权)  朝阳区档案局加大指导培训力度提高档案管理水平朝阳区档案局根据各单位实际需求,结合