试论大数据技术与电子档案管理优化

来源 :档案天地 | 被引量 : 0次 | 上传用户:lovetheme1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  大数据时代的来临就意味着“信息社会”的到来。在大数据时代,各行各業都面对如何高效地管理和利用这些海量而复杂的数据,越来越多的人们发现对这些数据进行有效管理和利用的重要性,档案行业也在其中。档案是一种记录历史的载体,在人类历史发展过程中,它所形成的各种记录数据是巨大的。在大数据时代下,怎样妥善管理电子档案已经成为档案管理人员研究的一个新问题。全球专业数据机构麦肯锡曾经发布报告,首次向公众指出了大数据的概念:大数据是指“大小超出了传统数据库软件工具的抓取、存储、管理分析能力的数据群”[1]。其特点可归纳为4V,即存储的数据量大(Volume)、类型庞杂(Variety)、处理速度快(Velocity)、价值密度低(Value)。数据量大指的是有完整的数据和巨大的数据量。类型庞杂指的是数据的类型很多,传输的方式和手段也很多。处理速度快指的是大数据的及时性。数据一经形成,就需要实时或者准时地分析数据,而分析数据的新趋向,则是突破常规数据分析要求深度分析,无论是数据的生成还是数据的获得、保存和应用,都具有很强的时效性。这是大数据技术区别于传统落后技术的一个最显著的特征。价值密度低是大数据的价值和准确性相对较低,单个信息的价值也不是很高。
  一、大数据时代档案管理思维模式的改变
  随着大数据技术的普遍应用,档案工作人员在管理档案的具体工作中思维方式也在发生着一系列的变化,具体表现在网络服务思维方式、信息技术思维模式、技术思维模式、共享思维模式四个方面的转变。
  (一)网络服务思维方式的转变
  传统的档案服务模式因为有时间、空间和利用手段等多方面的限制,已经不能适应在大数据时代下档案管理的工作要求,为了更加有效地面对增长的利用档案的需求,管理档案的部门要依据大数据技术的特点去建立一种网络化服务思维的转变,这样才能保证我国档案工作得以顺利开展。就大数据时代电子档案管理的工作而言,网络化服务思维的转变必须要求档案管理工作增加对大数据技术手段的运用,这样才能提高档案管理服务的效率。[2]随着大数据技术的普及和应用,档案部门完成了档案数据资源挖掘和分析档案数据的目的,而且也能够根据用户的爱好来推荐用户需求的信息,有效地降低了数据资源检索的困难。因此,这就要求档案管理部门在大数据技术的应用下,加强档案服务模式的改革和创新,以此提高档案资源利用的准确性,全面提高电子档案的利用率。此外,在大数据时代下电子档案管理也在朝着多样性方向改变和进步,档案管理部门就必须向用户提供技术化、智能化的档案服务模式,以满足用户的个性化需求。伴随着档案服务模式的逐渐变化和升级,档案馆的工作人员也必须分类整理档案信息,建立完备的数据分析系统才能适应用户提出的各种各样的需求。
  (二)信息思维模式的改变
  在大数据时代下建立在信息技术和信息开发上的档案管理模式是我国档案管理工作发展的必然趋势。信息化思维方式是指在档案管理工作过程中,工作人员必须站在信息技术的角度去认识问题、分析问题、解决问题。在大数据时代下档案管理工作要求档案部门必须使用信息技术去建立一个高效便捷的档案信息管理系统以便档案管理部门提高档案服务。[3]在档案管理工作中,档案部门必须使用发达的技术和方法,例如使用大数据技术和数据压缩技术把传统的纸质档案和音像档案转化为更容易保存的电子档案。把传统的纸质化档案资源改变为数字化档案信息并且使用计算机系统去管理这些信息不仅可以帮助储存档案数据而且还便于传输档案信息,这就为档案信息便捷化的使用打下了一个坚实的基础。目前数字化档案资源的建设主要有以下三个方面,一是一种数字档案数据目录检索的建立;二是一种全球的数字档案资源库的建立;三是档案资源数据的管理。尽管数字化档案已经有了相对应的图像,但是这些图像只有在人们阅读它的时候才能转化为有价值的信息。因此,档案工作人员就有必要丰富档案的内容,而不只是仅仅着眼于档案的数量。加快把档案资源数字化改变为数据化,不仅对人们阅读档案资源有帮助,而且为档案资源的计算和分析奠定了一个坚实的基础。因此档案管理部门必须加快数字化专项内容数据化建设的脚步,才能保证在大数据时代下服务效率的有效提高。
  (三)技术思维模式的改变
  在现代化发展进程中,西方国家形成的技术思维观念中就深度挖掘有价值的档案信息十分重要。技术思维模式的出现不但有助于提高使用技术的效率,而且加速了标准化模式的发展,为不断改进档案管理打下了一定坚实的基础。所以在大数据时代到来之际,档案管理工作必须以进一步的研究和应用大数据技术为基础。此外,还要根据商定的归档标准并考虑到新环境下档案管理的实际变化进行档案管理工作,这样才能提高利用档案资源的效率。在大规模传播和应用大数据技术的进程中,档案管理部门应积极推进档案管理的技术改造,促进档案管理水平的不断提高。[4]例如,在对档案数据的深度提取上,档案管理部门必须以数据分析和档案服务体系的不断完善为基础。面对大数据时代信息服务之间的激烈竞争,用户的资源需求不断提高,这也对现有的档案数据管理方法提出了新的要求,即档案管理工作人员使用语义分析、知识地图等重要的大数据技术,对大量档案资源中的高价值的资源进行分析和提取,这样才能满足在大数据时代创建档案管理系统的要求。因此,技术思维模式的改变满足了档案管理的需要。
  (四)共享思维方式的转变
  要想实现档案数据共享就必须以共建档案信息资源为基础。也就是说只有形成区域档案资源的共享机制,建立大型的档案信息资源数据库,才可以完成档案信息资源的综合共享。这种共享机制不仅可以满足用户的需求,也为我国档案管理工作奠定了一定的基础。但是因为现在我国大多数文件信息资源共享数据库仍然存在着许多孤立而分散的模式,因此不可能建立横纵向的文件资源信息共享平台。所以在大数据时代下,要达成数据库之间的互联和区域档案资源的共享,就必须建立一个新的共享的数据资源平台,在原始档案记录的根本上构建数字化档案,并且加强云计算等新技术的应用,才能为实现档案资源社会化服务提供良好的氛围。   二、电子档案管理中存在的问题
  随着近几年科学技术的飞速發展,办公自动化已成为各个部门必不可少的一种办公形式,档案管理也由原来的纸质档案管理慢慢变为电子档案管理。目前电子档案管理不但降低了劳动强度,并且能够提高工作效率,但是电子档案管理中存在的问题也有许多并且这些问题不容忽视。[5]
  (一)鉴定问题
  目前,随着信息网络的发展,电子档案的规模呈爆炸性增长,给电子档案的管理带来了很大的挑战。这样就导致尽管有的电子档案中存在极其丰富的价值,但是却非常难辨别并进行归档,不能保证电子文档数据和信息管理的有效效果,甚至在识别文档方面存在着问题。如果工作人员用简单传统的方法对电子档案进行鉴定,不仅不能解决现有的问题,而且还会影响档案管理的效果。
  (二)存储问题
  我国档案信息化建设正在日益推进,各种各样的档案数据库也在逐步建立、内容不断完善。使用档案数据库可以既方便又快捷地查询检索自己所需要的信息,结果还能形式多样地展现出来。档案数据库的使用极大地提高了管理电子档案的效率,但近些年来,因为电子档案正呈指数级增长,在使用档案数据库的时候出现了无法向档案数据库中保存新的档案数据的现象。[6]这种现象很像传统档案管理中因容纳纸质档案的库房空间太小进而导致新增加的档案无法保存到库房中,也就是“胀库”。档案数据库的“胀库”现象主要表现为新增的数据保存不上、因卡顿导致的用户查询检索的时候不正常或检索结果不准确、统计分析不准确等三种主要表现方式。
  (三)安全性问题
  在电子档案管理的过程中,大量的文件通过互联网发布和传播。电子档案通过网络传输的时候极易被泄露、改动、偷窥和篡改。除此之外,病毒可能会在电子档案发布、接收、保存和归档等某一环节中出现,办公自动化作为电子档案管理的一种重要形式,在如此恶劣的网络环境下,可以想象到一个小的疏漏就可能造成不可预计的损失。
  (四)用户服务问题
  当前,电子档案管理的单位是以“件”为单位,电子档案的价值密度很低,导致用户在获取有价值的信息时很困难。相对于用户而言,他们已经不在乎电子档案的采集、存储和分析,他们更加在乎的是如何快速准确地获取对自己有用的档案信息,并且以直观、易理解的方式展示在信息背后隐藏的知识。随着人们对档案查询需求的增长,用户的需求已展现出高速度、大数量和高质量的特征。
  三、电子档案管理应用大数据技术的必要性
  目前,我国正慢慢向档案管理信息化建设迈进。伴随着时代的飞速发展,互联网技术、云计算处理技术等改变了落后的档案管理模式,突破了传统技术的局限性。[7]但这些技术有时候并不能解决电子档案管理中的一些问题,所以在电子档案管理工作中有必要运用大数据技术,这样可以促进档案管理的发展,提高数据共享管理的效果,优化现有的工作内容。
  (一)解决鉴定问题
  在大数据时代,电子档案的数量正不断增长,给电子档案的管理带来了空前绝后的挑战。电子档案中可能存在很多有价值的信息,但要想从这些电子档案中发现有价值的信息很难。我国在鉴定电子档案的工作中,工作人员采用的是“直接鉴定法”,是指工作人员直接一件一件的阅读电子档案,通过阅读判断这些电子档案的价值。后来档案界大多数人认同的宏观鉴定方法,就是从整体上辨别一个档案机构是否有收集有价值的文件的能力,并不是直接地对档案进行处理。[8]但这些鉴定方法并不能解决因为电子档案庞大的数量带来的问题。大数据技术应用到电子档案的管理之后可以对电子文档的信息进行有效的整合,更好地对电子档案的价值加以判断,不错失电子档案中有用的信息。
  (二)解决“胀库”现象
  对于“胀库”现象,目前较多的档案馆采用的解决办法是购置新硬盘,但随着档案数据库的不断使用,每时每刻都会有新的档案数据需要保存。随着数据库的容量不断在扩大,占用的硬盘空间也在不断增长,很容易出现因为没有硬盘空间的问题无法工作的现象。而不断购买新硬盘耗费财力、物力,不能根本解决存储问题。
  (三)解决安全问题
  档案人员大多采用防火墙和其他技术来防止档案被修改等问题,但这些技术往往对黑客造不成困难,这对电子档案内容的安全构成了严重威胁。同时,不安全的网络和信息系统的脆弱性使档案传播过程中容易感染病毒和遭到非法分子的窃取。而大数据技术中的算法加密技术和安全权限技术可以解决这一问题。
  (四)解决用户服务问题
  目前,电子档案已经存在于各行各业中。相对于纸质档案,电子档案有很多优势,比如存储时间长、容易查找等各个方面的优点。但是电子档案的管理需要先进的信息技术才能够为用户提供更加多元化的服务与更高层次的需求。在传统的电子档案管理工作中,档案工作人员只有依靠计算机系统来处理文件,并不能对工作项目和内容进行改变,无法建立一个开放的机制,很难提高档案的管理效果,档案馆的工作受到很大程度的限制。但是大数据技术的应用提升了档案服务的水平,改变了档案馆的工作模式,对服务内容进行了综合创新。[9]在具体的档案服务工作中,使用大数据技术可以满足使用者的知识服务,建立新的知识服务引擎,主要有学术型、资源型和服务型等引擎类型,可以全面剖析和整合不同搜索引擎模式下的档案信息,满足当前发展的需要。
  四、基于大数据技术的电子档案管理的解决途径及注意事项
  大数据技术的发展为档案管理提供了一定的条件,能够更好地保证电子档案信息的完整性和安全性,也使得电子档案信息的保密措施得到进一步加强。
  (一)解决途径
  1.利用数据采集解决鉴定问题
  大数据技术使用的是全数据方式,即全部的数据都要被利用。直到今天,大部分的档案馆工作人员都是用人为的方式主观鉴定档案信息,对档案中有用的信息很容易疏漏,这样会使档案信息不完整。大数据技术中的数据采集可以很好地解决这个问题。[10]第一,数据量十分庞大,如果想使数据分析运行,就必须采用批量处理的方式,使用大数据技术中的MapReduce技术,对大规模数据集(大于1TB)的并行运算,把一堆杂乱无章的档案数据按照某种特征归纳起来,解析每个档案数据,从中提取出关键和价值,而这种技术也可以对非结构化电子档案数据进行处理。第二,要想保证这些档案数据的利用价值最大化,就要进行挖掘和预测,而大数据技术中的分布式文件系统GFS是进行数据分析十分有用的工具,能够对有价值的电子档案信息进行主动采集并推送至数据库。   2.建设分布式系统解决存储问题
  正如前面所讲述的一样,电子档案呈现海量的现象并在持续增长,怎么样才能存储不断增长的档案、解决“胀库”现象是当前电子档案管理面对的难题之一。而大数据技术能够建构分布式系统,并运用分布式系统架构储存图像、音频、视频、文本文件等各类档案数据,而且当数据量大于服务器承载力的时候,可以满足可扩充性的需求,从而解决存储问题。[11]
  3.建设安全体系解决安全问题
  为了更好地保证大数据信息系统的安全性,有必要建立一个完备严格的安全保护体系,尤其是大数据技术中的算法加密技术,能够提高保护这些档案信息的水平。大数据技术中的安全权限技术,能够建立一种使用者查阅和使用者进入和退出机制并对他们的查询和使用记录都做出完整的分析。[12]通过大数据技术还有必要提高数据共享的能力,对档案信息的数据进行管理,以保证档案信息不要超出信息传播的范围,还应实施对信息使用的监控,确保是安全使用并对这些记录进行跟踪和评价,从而防止档案数据信息的泄露。
  4.利用数据挖掘分析技术解决用户服务问题
  大数据技术关注的更多是人,而不是数据,大数据技术真正的价值所在就是数据分析。数据是为了让使用需求而存在,不同的人有不同的使用需求,人们需要使用数据来解决自己的需求问题。[13]假如海量的数据得不到分析,数据的有用价值就很难得到体现。因此,进行数据挖掘分析是最为关键的。为了让档案用户查找档案信息的时候更加准确以及更加符合他们的需求,就需要从深度挖掘档案数据和档案数据同用户的相关关系分析这两个方面进行解决。第一,是进行对用户档案数据的挖掘。经过对用户的数据挖掘做到十分精确,提高档案用户对档案服务的认同感,实现数据的最大价值利用。一是深度挖掘用户的各种信息。通过挖掘发现用户的需求并把这些需求提炼出来,查看用户使用服务器的时候留下的痕迹,跟踪用户的行为,以此来判断用户具有哪些兴趣,便于提供多元化的服务。二是对档案用户的检索记录和浏览记录进行深度挖掘。比如使用统计分析的方法来分析用户对某个档案词条的点击量,将点击量高的档案再补充完善;通过对用户查找时的检索关键词进行分析来补充数据仓库中的检索关键词,以此来提高查找的准确率;深度分析用户对网页的访问次数,以此来提供深层次的服务。第二,要提高档案数据相关关系的分析。不管是档案信息还是用户的档案数据,挖掘它们也就只能得到其仅仅一个方面的数据,并且挖掘到的数据经常都是孤立的数据点。所以就必须对两者之间的关系进行深入分析,才能得到一个完整的数据网络。在巨大的数据仓库中挖掘出来独特的价值是大数据技术的核心作用,通过对档案的综合挖掘、整合和分析,就唤醒了原来处于睡眠状态的档案资源,这样就能够显示出数据价值,使原本孤立的、互不相通的档案数据库之间的资源得到共享。[14]此外,大数据技术中的可视化技术可以用图例表格的形式更加直观地展示给用户,使查询结更加多样性、多层次。
  (二)注意事项
  1.有明确的目标
  电子档案管理在使用大数据技术时,必须有明确的目标,要思考运用大数据技术能够解决什么问题,并从中得到什么结果,否则就需要损耗特别多的时间来剖析数据。因为档案数据的资源太多太丰富,如果没有一定明确的目标,就会觉得十分迷茫。所以在使用大数据技术的时候需要建立一定的标准,这样运用大数据技术时就能精确而有效地解决问题,提高利用大数据技术的效率。
  2.注意潜在的风险
  运用大数据技术进行档案管理工作也存在一定的风险。比如自然灾害引发的风险、网络病毒带来的风险以及突发事件带来的风险,面对这些风险,大数据使用者必须严格制定方案,提升使用网络的安全度,比如对档案信息进行备份、使用入侵检测和控制访问等方法来降低风险。
  3.严格控制档案的访问制度
  档案的服务对象主要是面向广大的人民群众,最根本的目的就是让人们在利用档案的过程中更加便捷,获取档案中有用的信息。因此,在大数据时代的背景下,档案管理部门必须严格控制档案的访问系统。第一,档案的访问制度必须以法律为基础,具有较高的标准;第二,要灵活运用,制定适合本区域的访问制度;第三,檔案管理部门应该做到明确分工,责任到人。
  综上所述,大数据技术能够解决目前电子档案管理中存在的问题,但同时也充满着新机遇与挑战。未来大数据技术一定会更加完善,电子档案管理中运用大数据技术会越来越广泛,电子档案管理会取得重大突破,我国的电子档案管理也会步入到一个全新的阶段。
  参考文献:
  [1]郭晓科.大数据[M].北京:清华大学出版社,2013.
  [2]陶水龙. 大数据视野下档案信息化建设的新思考[J]. 档案学研究,2017(03)
  [3]姜婷婷.大数据视野下的档案信息化建设[J].兰台世界,2018(09)
  [4]张文元,张倩. 大数据技术与档案数据挖掘[J].档案管理,2016(02)
  [5]张健. 档案数据库“胀库”问题研究[J].档案学通讯,2012(04)
  [6]杨来青.大数据背景下档案信息资源挖掘策略与方法研究[J]. 中国档案,2018(08)
  [7]尚子田,唐甜.大数据时代背景下的档案管理要点探讨[J].管理观察,2018(06)
  [8]刘燕菲. 大数据和物联网对档案管理方法的创新[J]. 兰台世界,2018(08)
  [9]钟静. 探析大数据时代背景下的档案管理[J].兰台世界,2014(S3)
  [10]李纯.电子档案管理若干问题的思考[J].山东档案,2016(05)
  [11]张晓慧. 大数据时代文档管理优化研究[J]. 浙江档案,2015(06)
  [12]戴玲,彭延国,彭长根.大数据环境下的电子档案信息安全问题及对策[J].兰台世界,2015(29)
  [13]张建铭.大数据时代下的档案管理方式变革分析[J].兰台世界,2014(S3)
  [14]李小晨.大数据时代背景下的档案管理探讨[J].云南档案,2013(06)
  基金项目:2018年度山西省教育厅教育改革研究课题(2018JG15)。
  作者单位:山西大学马克思主义学院
其他文献
从文学地理学角度对汉族民间叙事长诗《双合莲》进行历史地理分析,以考察地域对文学流变之间的影响。汉族民间叙事诗歌总体呈现南移趋势,中国历史上的五次大移民使南北方文化在湖北交汇,尤其是“吴歌”随之进入湖北境内。湖北境内复杂的地理环境使各地域得以相对独立地发展,形成不同的地方文化。长诗《双合莲》正是复杂的移民文化与独特的地域环境综合作用的结果。对民间文学作品的溯源,对文学流变过程的考察和对作品地域文化的展现,具有重要的价值和意义。
针对当前森林资源监管中存在的发现不及时、查处“运动式”等问题,需要建立健全常态化的监督和执法机制,从源头上杜绝破坏森林资源行为的发生。鉴于此,以《陕西省宁强县2020年森林督查报告》为依托,运用定量与定性分析相结合的研究方法,详细分析宁强县森林督查的具体措施、督查效果及整改意向,皆在为今后的森林及林地资源管理工作提供理论依据与实践指导。
随着行业竞争的加剧以及环保压力的加大,我国农药行业进入新一轮整合期,这也对企业发展提出了更高的要求,只有不断适应形势发展,提升研发水平,增强科技实力,才能在农药制剂领域保持竞争优势。
用户生成内容在信息传播过程中发挥着重要作用,影响着游客对特定的目的地形象感知及选择动机.基于网络文本内容分析法,以马蜂窝的115篇关于内江的网络游记文本为数据样本,使用ROST CM 6.0软件挖掘高频词汇并进行语义网络及情感分析,对内江的旅游目的地形象进行解读和定位.研究结果指出:游客对内江的旅游目的地形象在整体上持有积极的感知,游客对内江的人文景观的感知强度高于对自然风光的感知强度,蕴含在人文景观中的厚重历史感是游客到访内江之后最主要的心理体验.建议将历史人文作为内江旅游目的地形象定位的突破口,深度挖
2020年春季,因新冠疫情的影响全国各高校不能按时开学,老师们积极响应“停课不停教,停课不停学”的号召,克服重重困难开展在线教学.借助QQ课程群、腾讯课堂与超星泛雅等软件,开展了《Java程序设计》课程线上教学,依据教学大纲的要求组织和实施了教学过程中的各环节,通过QQ课程群推送学习材料,通过腾讯课堂进行在线直播、答疑解惑、讨论互动,通过超星泛雅课程提供在线学习.在圆满完成预期教学任务的同时,学生自主学习能力和学习积极性得到了较大的提升.
净化空调系统作为层流净化手术室的核心,系统庞大,结构复杂,在使用过程中会出现各种各样的问题。本文介绍了净化空调系统的结构原理,以及在日常工作中的保养重点和常见故障,提示广大医学工程人员做好日常保养维修工作,确保手术室净化空调系统发挥最大价值。
2021年6月8日,浙江三箭工贸有限公司与南京林业大学签署战略合作协议,开启校企合作助力企业发展的新篇章。国际木材科学院院士、南京林业大学家居与工业设计学院院长吴智慧带领南京林业大学考察团到位于浙江庆元的浙江三箭工贸有限公司考察,双方正式签约达成战略合作关系,并举行了“竹材弯曲家居产品技术研发中心”授牌仪式,吴智慧院士为第一批核心技术成员颁发聘任书。
构建普适性的好课分析维度与标准,有利于师生更好成长,有利于教学评价科学实施,有利于立德树人任务扎实落地。基于科学性、普惠性与生态性三大基本原则,可以构建“主体:生本;内容:真与正;过程:适切与优化;效果:更好成长;支持:教力;进化:创新”六大好课分析维度与标准体系。实现好课要通过“研究、学、磨、赛、积累、持续生长”这六大路径。
妥善治疗和安置伤病员,做好伤病员的思想政治工作,是红军创建以来就必须直接面对的重要问题。古田会议不仅在思想建党、政治建军方面为我党我军树立了历史的丰碑,而且也为做好红军伤病员工作,开创人民医疗卫生事业奠定了坚实的基础。古田会议决议对加强伤病员的救治,提高红军战斗力,密切军民鱼水关系都产生了深远的影响。
Based on the data mining of clinical literature,we analyzed the characteristics of Acupoint Selection and manipulation in the clinical treatment of“simple obesity”,in order to optimize the compatibility of clinical acupoints,simplify the manipulation,and