基于OFDD标准的高校档案资源“数据化”策略研究

来源 :档案与建设 | 被引量 : 0次 | 上传用户:qw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:档案资源数据化应是新时代档案事业发展的目标。文章基于OFD标准,以高校为具体应用场景,研究满足档案资源数据化需求的实施策略,包括对数据化资源充分包容与主要资源形态间顺畅转换的支持、对档案资源元数据体系充分支持、对本体论知识库充分支持、对档案资源协同过滤机制充分支持等方面。
  关键词:OFD;数据化;高校档案;协同过滤;本体论
  分类号:G270.7
  Research on University Archives Resource Datalization Strategy Based on the OFD Standard
  Tian Wei, Jiang Guan
  (Management School of Tianjin Normal University, Tianjin, 300387)
  Abstract:The datalization of archival resources should be the goal of the archives development in the new era. Based on the OFD standard, the paper takes universities as specific application scenario, and studies the implementation strategies to meet the needs of archival resources datalization. These strategies mainly include being supportive to sufficient inclusiveness for various datalized resource and smooth transition between major resource forms, being supportive to archival resources metadata, being supportive to ontological knowledge base and being supportive to archival resources collaborative filtering mechanism.
  Keywords:OFD;Datalization; University Archives; Collaborative Filtering; Ontology
  档案资源的数据化是新时代档案事业发展的根基与前提。当前学界往往将“数据化”作为一个与“数字化”相对的概念,把档案资源的“数据化”定义为:将档案资源的形式与内容转化为电子计算机可处理的数据,并通过档案数据管理系统实现有效管理的系统化工作。
  从实践角度来看,离开了充分有效的档案数据化资源,新时代档案事业将成为无源之水、无本之木。根据调查结果,受访各高校档案部门几乎都存在档案资源检索遗漏现象(即未能找到实际上存在的馆藏档案资源),给档案工作带来了一系列问题,而问题的根本原因在于档案资源的数据化程度不足。
  从理论角度来看,四重境界理论[1]表明,新时代“互联网+档案”的建设应从第一到第四重境界逐步开展。第一重境界建设完成的标志是:实现传统介质档案的充分数据化,并建立相应完善的元数据标引体系。可见,数据化是实现“互联网+档案”建设的基础条件。
  当前,档案界在不断探索大数据、智能化等问题时,实际上亦应思考一个“根基问题”:档案资源的形式与内容都很好地进入计算机世界了吗?这就是档案资源“数据化”的要义所在。
  如上所述,当前“找到”档案资源的问题甚至尚未很好地解决,“第一境界”尚未实现,又谈何档案资源的“高级应用”?档案资源“数据化”问题尚未研究透彻而言他,就相当于还没有解决“走”而直接去研究“跑”。
  因此,必须对档案资源数据化问题给予充分重视,对档案资源数据化实现策略应加以系统性研究。当前,国家正在出台一系列政策,推动OFD版式文件标准的广泛应用,OFD代表着我国档案资源数据化未来的发展方向。因此,本文基于OFD标准,着眼于高校档案这一具体应用领域,提出档案资源数据化的若干实现策略。
  1相关研究
  OFD是我国自主的版式文档格式规范,由《电子文件存储与交换格式版式文档》(GB/T 33190-2016)确立。OFD标准体系使我国首次拥有了国家级的电子文档自主版式格式标准及相应技術,对于实现新时代档案资源“数据化”具有重要意义。
  自相关标准发布后,围绕OFD在档案领域的应用研究逐步展开。例如,王姝等[2]对OFD在档案领域的主要应用、存在的问题进行了分析,进而提出形成OFD标准族、加大应用试点等档案OFD发展策略;高林等[3]对OFD标准进行了系统解读,给出了其在电子公文、档案等领域的应用实例;周枫等[4]对OFD格式应用场景进行了探讨,以SWOT分析法对OFD在档案领域的发展进行了分析;郭晓云[5]在研究中对OFD应用于电子公文档案一体化的策略进行了研讨;梁凯[6]对档案部门应用OFD的应对之策进行了研究。
  从总体上看,OFD作为我国大力推广的、具有全面自主知识产权的版式文件标准,日益受到业界与学界的重视。相关工作具有良好的价值,但对OFD的研究尚处于初步阶段。而一些研究也提到,OFD应进一步面向实践领域推动落地研究,以突破当前其所存在的局限性。
  因此,我们应结合档案具体领域的应用场景,加紧研究面向实际的OFD应用策略,以具体实践推动整体研究,促进OFD广泛应用与档案资源数据化的实现。
  2高校档案资源“数据化”需求
  2.1高校档案资源主要特点   文章将高校档案作为主要研究领域,是由于实现高校档案资源的数据化具有典型示范意义。从总体上看,高校档案具备以下特点:
  一是档案资源门类较齐全、数量丰富。当前各高校基本根据《普通高等学校档案管理办法》等文件设立了门类齐全的档案资源体系,包含了党政、教学、财务、基建等多种类型的档案资源,在资源数量上有相当的规模,从而为档案资源数据化提供了坚实的资源基础。
  二是对档案资源的管理较为规范。当前国家出台了一系列的规章制度与技术标准以规范高校档案事业的开展,在实践中这些法规基本得到了较好的执行,使高校档案资源处于良好有序的管理体系之下,从而为档案资源数据化提供了较好的运行环境和制度保障。
  三是对档案资源的利用需求日益旺盛。根据以往课题的调查统计,当前对高校档案资源的利用需求数量逐年递增,对资源需求的種类也在逐步扩大。随之由于对档案资源未充分数据化而造成的各种问题也日益凸显出来,给新时代档案事业发展带来了一定阻力,从而对档案资源数据化的开展提出了迫切的要求。
  2.2高校档案资源主要形态
  从总体上看,当前高校档案资源主要包括以下几种主要呈现形态。
  (1)文档。即文本文档,以字符作为主要表达形式的文件。它有电子文件和非电子文件两种形式。典型的文档诸如政府文件、总结报告、文章稿件、统计报表等。电子文档文件的格式包括TXT、DOC、PDF、XLS等。
  (2)图像文件。即以图像信息为主要形式的文件。主要包括照片、图纸、绘画、地图等档案资源。它有电子文件和非电子文件两种形式。电子图像文件的主要格式包括JPG、PNG、BMP、TIFF等。纸质文档经数字化扫描而得的图片文件亦属于此类。
  (3)音频音像文件。即以视频或音频为主要形式的文件。主要包括录像资料、录音资料等档案资源。它有电子文件和非电子文件两种形式,电子形式又可细分为磁介质文件、光介质文件、半导体介质文件等。其电子文件主要格式包括MP4、WMV、ASF、3GP、RMVB等。
  (4)数据库文件。即由数据库管理系统(DBMS)所定义、操纵的数据文件。数据库文件全部为电子文件形式,包括关系型数据库与非关系型数据库两种类型。典型的高校档案资源中的数据库文件包括教学成绩数据、财务系统数据、各类统计数据等。数据库文件的主要格式包括DBF、MDB、MDF等。
  (5)软件及其数据文件。即除上述四种形态资源之外的档案资源中其他软件及其数据文件。所包含的种类较为广泛。随着大数据、“互联网+”等新时代技术环境的到来,各种应用软件及其产生的数据越来越多地加入到档案资源建设范围中来。例如典型的软件及数据文件归档包括工程CAD文件、网页归档文件、社交媒体归档文件、科研软件系统文件等。
  五种形态之间互有包含、紧密联系。如文档中往往不单单含有文字,还包含一定的表格、图像等,而图像文件也必然含有文字说明要素,数据库文件实际上是软件及数据文件的特例。
  2.3高校档案资源数据化需求
  以上五种形态档案资源对于版式文件具有不同的需求。在“四重境界”理论的视域下,我们以形态和境界为两个维度,总结高校档案资源数据化任务需求(表1)。
  3基于OFD标准的档案资源数据化策略
  基于以上的档案资源数据化典型需求,结合OFD标准自主性、安全性、兼容性的特点,提出以下的档案资源数据化实现策略。
  3.1对数据化资源充分包容与主要形态间顺畅转换的支持
  当前国家相关部门致力于推动使档案资源版式文件格式统一于OFD标准。因此OFD标准应对多种形态的档案资源具有较好的包容能力。OFD标准应充分包容各形态档案资源,避免使档案资源数据化成果呈现形态过于纷杂,同时实现档案资源数据化成果统一于我国自主知识产权标准。
  OFD标准擅长于实现各类文档排版后的固化呈现,因此文档与图像文件可较为直接地应用OFD标准实现数据化成果存储。当前电子证照、政令文件等领域已经成功地开展了OFD标准应用。因此,高校档案资源中的类似数据化成果可参照实现。同时,应扩展OFD文件对于音频音像文件的包容能力,使这类档案资源能够通过OFD标准实现有效的存储与利用。


  OFD是基于XML与压缩技术的电子文档格式标准。因此OFD对数据库文件应该具有较好的支持度。XML善于描述结构化数据,是一种存储与传输数据的格式标准,与多数数据库支持模型原理相通,具备对数据库文件的良好支持度。当然,XML仅仅关注于存储数据,而不提供数据索引、排序、查找、相关一致性等功能。这就意味着,可保持数据库文件的原有格式作为数据化资源形态,不必一定将数据库文件转为OFD文档存储,但应保持数据库文件归档后的长期可用性及其生成OFD版式文档的能力。
  应用OFD文档存储档案数据化资源,应保障资源在相关形态间顺畅转换。例如,高校档案资源中的教学成绩单文件,往往以文档的形态呈现,但生成成绩单文件的支持数据来源于教学数据库,往往以关系型数据库文件形态呈现。那么,成绩单档案资源应以何种形态实现数据化?是应以一个个独立文档(每个文档对应一份成绩单)的形态还是以数据库文件(利用时再生成独立成绩单)的形态进行归档存储?这是权衡多重因素应加以确定的问题,以确保文档版式呈现与数据挖掘两方面需求的充分满足。
  3.2对档案资源元数据体系充分支持
  档案元数据是描述档案资源与档案业务活动的数据集合,其主要可分为基本元数据、管理元数据和业务元数据等。“互联网+档案”建设“四重境界”的发展要求对档案资源元数据加以充分重视,各重境界的目标必须依靠档案元数据的有效支持方能实现。这也就意味着,除了对档案资源本身充分包容之外,OFD文档也必须充分支持档案资源元数据体系的存储。   高校档案资源元数据往往采用诸如都柏林核心元素集、MARC、GILS、FGDC/CSDGM等技术标准,因此OFD文档应对相关的元数据实现充分有效的存储,并保障其长期可用性。
  相关研究表明[7],在一些情况下,OFD对于档案文档资源的属性元数据保存存在信息损失现象。一些格式的流式文档在转换为OFD版式文档后,一部分元数据会发生损失。这种缺失元数据副本的问题对于电子档案资源来讲并非是可忽略的小问题,应着力加以解决。在建设OFD文档资源工程中,应充分认识到元数据对档案资源的战略意义,推动实现OFD对档案资源元数据体系的充分支持。
  3.3对本体论知识库充分支持
  以本体论所构建的档案资源信息概念模型是计算机可理解的智能工具,这是传统的主题词表等工具所不具备的能力。本体方法比传统的分类法、主题法等具有更强的知识导航功能,从而实现对档案资源更有效的智能管理与组织。因此,本体知识库对于实现档案资源智能检索等方面具有重要意义。
  本体技术一般具有四个核心:一是形式化(Formal),本体是计算机可理解的;二是概念模型(Conceptualization),从现实世界抽象得到的、独立于具体环境的概念集合;三是共享(Share),本体中所涵盖的是人们对于事物的共同认知;四是明确(Explicit),本体中的概念与概念之间的联系均有明确约束。本体的描述语言主要包括RDF、RDFS、OWL等。
  档案资源领域的本体知识库建设一般通过领域专家的系统性设计实现。通过将档案资源所含知识建为本体知识库,实现以本体形式化描述档案资源,以有效揭示档案资源所反映的丰富内容,提升档案资源管理利用的智能化水平。所建设的本体知识库作为智慧结晶,应确保可靠的长期可用性。因此,应探索应用OFD文档标准对档案资源本体知识库实施可靠存储。通过发挥OFD标准在持续可解释、显示一致性、可转换性等方面的优势,使档案资源本体知识库获得一种良好的存储环境,发挥其应有作用。
  3.4对档案资源协同过滤机制充分支持
  个性化推荐是实现档案资源智慧检索的重要支持机制之一,协同过滤是实现个性化推荐的核心机制。为实现档案资源协同过滤,需要收集存储档案用户对档案资源的评价反馈数据、档案用户自身属性数据、档案资源利用行为数据等。这些数据应与档案资源数据化成果密切结合,有效驱动档案智慧检索系统的运作。因此,对档案资源协同过滤支持数据的有效存储和可用性保障可作为OFD文档的一项应用。
  OFD文档标准是基于XML实现的,具有较强的描述结构化数据的能力。而协同过滤支持数据在概念模型层面往往是矩阵的形式,在逻辑存储层面则可采用结构化数据结构。因此,应用OFD标准对协同过滤支持数据进行存储是较为可行的。也就是将协同过滤支持数据作为若干独立的OFD文档进行归档存储。该方式可较大程度上发挥OFD标准的优势,实现档案资源协同过滤平稳有效运行。
  与将协同过滤支持数据嵌入档案资源本身存储相比,将协同过滤支持数据作为若干独立的OFD文档进行归档存储有诸多优点。例如档案用户评分反馈数据可独立作为一系列OFD文档存在,从而实现矩阵计算等方面的快速调用与运算,无需每次都调用档案资源本身对应的各个OFD文档。而档案用户属性等数据作为独立的OFD存储,则有利于避免数据冗余与数据不一致等问题的出现。
  3.5对档案资源跨界获取数据交换充分支持
  应充分发挥OFD标准在安全性、兼容性等方面的优势,促进档案资源数据化成果的远程跨界交换共享的实现。
  档案资源的跨界获取完备主要可分为两类应用场景:一是事务办理类,二是兴趣研究类。前者要求档案资源在事务所涉及的组织机构之间能够实现交换共享,后者要求与研究主题相关的档案资源能够打破物理位置限制而实现交换共享。当前应充分利用OFD标准推进实现这两类场景档案资源的跨界获取交换。
  由于OFD格式基于业界主流的“XML描述+ZIP打包”模式,因此OFD标准产品从其内在机制上就较为适合实现数据化档案资源的远程跨界交换。一方面,XML是各种应用程序之间进行数据传输的最常用的工具,为异构平台间交换数据提供了良好的描述能力。另一方面,ZIP打包支持诸如ASIP、TSIP、AIP、DIP等信息包交换,易于实现数据化档案资源的跨界共享。此外,OFD标准支持以数字签名等方式进行数据交换过程中的安全认证,在数据交换安全性方面有较好保障。在以OFD标准存储档案资源数据化成果的基础上,应进一步开发OFD文档跨界交换应用软件,制定相应数据交换规章制度,实现四重境界的建设目标。
  4总结
  OFD当前是一个主标准,解决了数据存储、压缩、位置等问题,但其相关标准族尚待研究完善。这不仅是一个围绕OFD的技术问题,更是对于档案资源数据化拓展与深化认识的问题。只有全面深刻认识档案资源数据化、以数据化实践拓展OFD应用领域,才能形成建立在实际需求之上的完善标准体系。
  为此本文基于OFD标准提出若干档案资源数据化实现策略,对于拓展OFD标准应用、推动档案资源数据化工程具有积极意义。
  *本文系中国高等教育学会档案工作分会研究课题“‘互联网+’时代高校档案馆发展研究”(项目编号:ZGD-Y-2018-05)阶段性研究成果。
  注释与参考文献
  [1]田伟,韩海涛.基于“四重境界”的“互联网+档案”建设策略研究[J].档案学研究, 2019(3):55-61.
  [2][7]王姝,徐华,王少康.OFD版式文档应用研究[J].档案学研究,2019(1):95-100.
  [3]高林,李海波,丛培勇,王寒冰.OFD版式文档国家标准解读[J].信息技术与标准化,2016(10):42-44.
  [4]周枫,吕东伟,邓晶京,黄丽萍,骆建珍.OFD格式在档案领域的应用初探[J].档案管理,2018(4):35-37.
  [5]郭晓云.国家版式文档格式规范(OFD)标准[J].兰台世界,2018(3):33-36+12.
  [6]梁凱.档案部门应用OFD格式的若干思考[J].浙江档案,2017(1):64.
其他文献
[摘要]《档案库房智能管理机器人可行性研究》一文较具创新性和启发性,但也存在理想化和偏颇性问题。针对文章中提到的库房机器人应用现状与启示、可行性分析中的应用场景以及档案库房智能机器人主要的技术难点,结合档案库房管理的实际情况,从管理效益、管理职能以及技术因素三个方面进行了商榷,并最终得出结论,档案库房智能管理机器人在现阶段较难实现。  [关键词]档案库房智能管理机器人  [分类号]G270  《档
期刊
摘要:文章在调研分析疫情阶段湖北档案工作主要举措——提供专业服务、下沉社区参与防疫、开展宣传教育、主动捐款捐物的基础上;针对疫情严重地区的特殊性提出举措建议——精准把握疫情严重地区定位,实施档案资政;兼顾完整与特色,开展档案收集;区分对象疏导民心,传递档案人文关怀;内外助力舆情管控,传播档案正能量;发挥专长下沉社区,凸显档案专业优势;规范记录捐赠信息,发挥档案监督功能;助力企业复工复产,勇担档案专
期刊
为全面贯彻落实党的十九大关于实施乡村振兴战略的决策部署,助推浦口“三农”工作,更好地保存浦口乡村记忆,浦口区档案局以“百村万户”口述历史采集工程为抓手,创新档案文化的传承方式,开展了原江浦县五里村集体口述史采集、建档与开发编研工作。着力抢救、保护与开发利用好这一难得的文化资源,建立与传承浦口乡村历史档案,以此探索留住乡村记忆的新途径。  一、乡村口述史采集、建档与开发编研工作初心与愿景  随着浦口
期刊
国家档案局原局长杨冬权在昆山作主题报告  10月18日,昆山市档案馆举办“不忘初心、牢记使命”主题报告会,特邀国家档案局原局长杨冬权到会作主题报告。苏州市及各县市区档案条线的100多名党员干部参加了报告会。  杨冬权以一首《共产党颂》引入主题,作了题为《从档案中看中国共产党的初心和使命》的主题报告。报告第一部分是“从一组一大的档案看党的诞生”,第二部分是“从一组美军观察组评价中共的档案看中共抗战时
期刊
《档案与建设》作为江苏省档案馆、江苏省档案学会主办的档案专业学术期刊,是江苏档案宣传的主阵地与对外文化交流的重要媒介,也是广大读者了解江苏档案文化的窗口,承担着展示地方特色、传承历史文化的重要作用。期刊面向国内外公开发行,作为档案文化传播的载体,始终致力于对地方档案宣传工作的探索与实践,助推苏州丝绸档案申遗就是一个生动实例。  苏州是中国丝绸产品和丝绸产业的重要生产地,苏州市工商档案管理中心现馆藏
期刊
近年来,丰县城管档案工作紧紧抓住“智慧城市”建设契机,以创建智慧档案室为抓手,有机嵌入“智慧城管”运转体系,主动介入“智慧城管”核心管理,为全面提升城市管理水平贡献了档案力量。2018年1月,內嵌智慧城管档案管理流程的丰县城管执法应急可视化指挥平台,在北京第二届新型智慧城市论坛上获得“中国新型智慧城市优秀创新案例奖”,同年7月获得国家版权计算机软件著作权。  从无到有,全面建构智慧档案室  201
期刊
9月11日,江苏省档案馆召开“不忘初心、牢记使命”主题教育总结大会。省档案馆馆长、馆主题教育领导小组组长陈向阳出席会议并作总结报告。省档案馆副馆长、机关党委书记、馆主题教育领导小组副组长赵深主持会议,通报了省档案馆“不忘初心、牢记使命”主题教育专题民主生活会情况,并作会议小结。馆主题教育领导小组副组长、副馆长陈万田和副巡视员邹华、于晓庆出席会议。全馆处级以上干部、全体党务工作者等参加了会议。  陳
期刊
摘要:文章以张家港市城建档案的信息化平台建设为例,以“互联网+”的设计理念,从设计架构、业务流程、条件保障等方面对城建档案智能化管理进行探索。并在此基础上,深入讨论BIM+GIS技术对城建档案工作产生的深远影响。  关键词:BIM;GIS;智能化管理;城市建设;档案管理  一、建设BIM+GIS城建档案管理平台的背景及必要性分析  随着城市建设高速发展,传统城建档案管理模式需要耗费大量人力物力、档
期刊
2019年5月20日至21日,国家林业和草原局湿地管理司组织专家对丰县黄河故道大沙河国家湿地公园试点建设进行考察评估。其间,与会专家认为大沙河湿地公园档案管理制度健全、分类科学、保护有效、管理精致,在翔实规范的档案资料支撑下,国家湿地公园试点建设顺利通过专家评估。  一、大沙河國家湿地公园建设基本情况  丰县物阜民丰,自古即有“丰沛收,养九州”美誉,宋末金初黄河南迁会泗侵汴夺淮,明清时期黄河在丰县
期刊
8月14日,“学习强国”江苏学习平台“E起学习”工作室成立暨“红色宣讲映初心”首播活动在新华报业传媒集团举行。  江苏省委宣传部副部长赵金松,新华日报社党委书记、社長、新华报业传媒集团董事长双传学出席活动,并为“E起学习”工作室揭牌。新华日报社总编辑、党委副书记顾雷鸣与首批红色文化资源战略合作单位代表签约。  今年以来,在江苏省委宣传部指导下,“学习强国”江苏学习平台在不断扩大用稿数量的同时,坚持
期刊