人工智能在档案工作中的应用实践与挑战

来源 :档案与建设 | 被引量 : 0次 | 上传用户:kaliya
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:随着深度学习技术的迅速发展,人工智能逐渐进入行业应用阶段,也为档案工作的智能化发展提供了契机,尤其是文本处理、信息抽取、模式识别、专家系统等技术在档案工作中体现出广阔的应用前景。文章以北京市市场监督管理局为案例,分析了其引入人工智能技术进行档案智能挑选和智能鉴定划控等工作取得的成果,并研究探索了人工智能技术在档案审核和音视频档案管理中的应用思路,最后对人工智能在档案领域中的挑战和对策进行了思考。
  关键词:人工智能;档案;深度学习;模式识别;自然语言处理
  分类号:G271
  近年来,人工智能技术的发展取得了较大的突破,尤其是在大量数据的推动下,深度学习技术日益成熟,在医疗、交通、教育、企业管理等多个领域呈现出良好的应用态势,“人工智能+”在多个行业逐渐落地。世界主要发达国家正在把发展人工智能技术作为提升国家核心科技竞争力的关键目标,将人工智能提到前所未有的战略高度。人工智能呈现出的跨界融合、人机协同等特征,与产业发展的基础层、技术层和应用层相互配合、相互促进,将成为今后人工智能与产业发展融合的主要方向[1]。人工智能技术在档案行业中的应用也正在不断突破发展,“大”数据成为数字时代档案资源的显著特征,为人工智能技术提供了充分的数据储备,使得模式识别、文本处理、信息抽取、专家系统等技术在档案智能管理中能够发挥重要的作用。经过不断迭代,人工智能技术的应用将从很大程度上提高档案管理工作的效率,节省人力物力资源,提升管理和服务质量,并适应档案数据化发展的趋势,推动档案工作的智能化变革。而在未来发展过程中,也要着眼于人工智能技术应用的风险控制路径和人机协作与融合发展问题,以取得更高的效益和提供良好的人机环境。
  一、人工智能与深度学习
  人工智能是通过人类设定相应的程序并操作,使计算机可以模拟人类思维过程与智能行为的技术,是计算机科学发展到一定阶段衍生出来的产物[2]。经过半个多世纪的坎坷发展历程,近年来迎来新的发展曙光,尤其是云计算和大数据技术的巨大发展,为人工智能的突破提供了强大的计算平台和充实的数据资源。在这一过程中,最显著的便是深度学习的突破。深度学习技术在机器学习技术的基础上发展而来,依托更多的数据资源和更高级的算法,实现更精确的学习输出和效率,在自然语言理解、计算机视觉技术等学习中具有突出表现。机器学习和深度学习的本质是从数据中寻找规律的过程,通过给定的摘要信息或数据对寻找规律,并设计出算法和模型,应用于解决预测问题、分类分析、聚类分析等实践问题。
  在档案工作中最常用到的人工智能和深度学习技术主要包括文本处理技术、信息抽取技术、模式识别技术、专家系统等关键技术成果。(详见表1)
  二、北京市市场监督管理局的档案智能化应用与探索
  企业登记档案是市场监督管理机关依法对企业法人登记注册、监督管理过程中形成的具有保存价值的文字、图表、声像等形式的历史记录,它们对于规范市场主体行为、保障企业合法权益、促进社会信用体系建设具有十分重要的意义。北京市市场监督管理局近几年将人工智能技术和思维引入局内檔案的管理工作中,经过多次迭代,在档案智能挑选、档案智能鉴定划控方面取得了一定的实践应用成果,同时不断探究智能音视频档案管理和智能审核等功能实现方案,是人工智能在档案行业的应用典型。
  1.智能档案精准检索



  从内容而言,企业登记档案包含了对企业法人登记注册和监督管理过程中形成的公司章程、验资报告、财务审计报告、法人承诺书、企业法人和股东的身份证明和联系方式等数十种材料。但是在档案的查询利用过程中,用户未必要用到一份企业登记档案中的全部材料,可能只需要检索和利用其中一项材料或者一页内容、一条数据,那么如何在短时间内在体量庞大的数十种材料中定位到用户想要利用的目标性内容,是目前企业登记档案利用服务中迫切需要解决的问题之一。
  针对这一需求,北京市市场监督管理局引入人工智能技术中的图像识别技术和信息抽取技术等,针对档案利用过程中无法直接查找定位身份证明文件等精细化利用问题,研发了档案图文智能定位与精细化检索工具,实现了对存量数字化图像内容的批量智能自动识别预处理和精确查找定位,目前部分类型的档案智能精确检索率已经超过90%,在很大程度上提升了档案利用效率,提高了用户满意度。
  2.智能档案划控鉴定
  档案开放是各级各类档案馆和组织机构开展档案利用服务的主要形式,馆藏档案在开放前,都必须要进行划控鉴定。档案划控鉴定是档案馆馆藏档案达到开放年限后经过组织鉴定审查、划控、审核、审批,向社会开放的过程[5]。
  北京市市场监督管理局的企业登记档案具有利用率高、共享性强的特点。企业登记档案的利用采用页面级安全控制,但部分早期馆藏没有进行档案页面内容的公开属性鉴定,且不同历史时期档案内容公开属性的鉴定标准有所不同,导致在档案共享利用过程中存在档案信息泄露等安全隐患。面对高达数亿页的海量档案,原来只能根据查询要求进行人工鉴定。针对这一情况,北京市市场监督管理局采用档案图像识别和内容识别等人工智能技术,结合专家系统的应用,研发了某些类型档案的页面公开级别智能鉴定工具。该工具在企业登记档案大数据的基础上,通过大量档案图像数据样本学习训练出可靠的算法模型,首先保证海量图像内容的识别精度,然后再按照现有的鉴定标准,采用批量智能识别处理的模式对存量档案图像页面的公开级别进行全自动鉴定与校核处理,有效消除了档案共享利用过程中的档案信息泄露等安全隐患,促进档案安全体系建设,同时降低了成本、提高了鉴定效率,有效促进了档案管理工作方式的创新。   3.智能档案审核、音视频档案管理
  在电子文件增量迅速扩大的背景下,在线电子化归档成为企业登记档案中最主要的归档方式之一,需要提高电子档案的数据质量、归档效率和查询时效性。针对现阶段在线电子归档的质量问题,北京市市场监督管理局发现电子化档案归档审核难度大、效率低,以及档案查询利用的时效性低等,因而研究采用档案图像内容识别等人工智能相关技术,正在设计研发智能化在线归档的处理工具,实现对在线归档的原生电子文件图文质量进行智能化的自动批量校核,包括图像清晰度、内容完整性和规范性等方面的质量检查,在确保企业登记档案大数据质量的同时,有助于提高电子文件在线归档效率及查询时效性。
  音视频档案也包含有大量管理性和业务性价值信息,但是大量音视频档案并不便于查询利用,例如行政执法等多媒体档案文件片段多、内容不连贯无规律,利用十分不便。对此,北京市市场监督管理局尝试研究采纳语音识别技术、计算机视觉技术等,探索以视、音频信息服务为主体的多媒体内容分析处理等智能化信息处理工具,研究对行政执法过程的视频和音频文件进行自动分类管理和智能检索利用的工作方法,以提高音视频档案的利用率,同时最大程度地对其中有价值的数据信息进行挖掘和分析。
  北京市市场监督管理局的档案管理现实需求构成了人工智能技术应用的驱动力,并将人工智能的深度学习技术真正纳入智能档案管理的实践层面,说明档案领域的人工智能也已经进入实践应用阶段,并且在未来档案行业专家和技术应用相结合的过程中,还将更有可为。
  三、人工智能在档案行业应用的挑战与对策
  将人工智能应用于档案管理工作中具有重要的价值。首先,效率和成本方面,能够大大提高档案审核、鉴别和检索服务的效率,在准确率方面也超出人工管理的平均水平,同时能够节省大量的人力资源,以二十四小时工作的机器人代替人类完成大量程序性操作。此外,伴随着大数据时代的到来,档案管理的“数据化”趋势也将不可逆转,单凭人脑来分析、处理和挖掘大量档案数据中的信息几乎不现实,人工智能技术的应用是必然的选择。而将人工智能技术应用到档案行业中,尚处于不断摸索的阶段,同样面临着诸多的风险和挑战,需要合理规划和应对。
  1.人工智能应用的风险控制
  人工智能技术虽然已经大规模应用,但是整体上仍处于“弱人工智能”阶段,是在一瘸一拐的摸索中前行,其自身技术革新的局限性也必然会导致在档案行业中应用的风险。
  一方面,人工智能的深度学习技术是建立在大量数据储备基础上的,为了提高操作的準确率和效率,档案应用人工智能技术必然需要大量的用户数据进行机器学习,以提供更加精准和便捷的用户服务,因而存在用户信息安全与隐私保护方面的风险[6]。尤其是随着人工智能技术的大规模应用,机器将有越来越多的机会接触数据,并且是庞大的数据体,那么数据泄露等风险将成为重要性问题。另一方面,人工智能技术是在学习人脑知识和人脑思维的基础上进行应用,机器对于数据和信息的识别和理解能力也具有一定的局限性,技术的不成熟、档案专家系统的不完善等要素,都会成为人工智能应用水平的重要影响因素。因而在实践应用过程中和人类一样会出现操作失误,甚至会犯通常情况下人类并不会犯的错误,易导致档案内容误读、页面安全级别鉴定错误等工作风险。
  对此,有必要在人工智能技术引入档案工作实践的同时,充分考虑到其潜在的风险问题,采取风险控制措施。针对人工智能应用存在的数据泄露和隐私安全风险问题,需要建立有效的用户信息安全保护制度,在信息授权、信息传递等方面明确机器学习的权限,有效规避在人工智能应用过程中潜在的信息泄露风险。在人工智能管理者、技术人员和用户之间建立起合理的利用观念,在遵守伦理道德的前提下利用人工智能[7]。同时,面对机器可能造成的失误,在应用测试阶段对人工智能的失误率进行有效评估,不断优化目标函数,并保证在多次迭代达到可控风险的阶段才能真正纳入实践应用,实现人工智能应用的损失控制,在必要时采用人工辅助的手段进行风险保留。
  2.人机协作融合的发展走向
  将人工智能技术应用到档案工作中,虽然很大程度上是要实现解放人类劳动力,提升工作效率的目标,但并不意味着人工智能要替代人类工作,当然也不可能替代人类工作。相反,技术的局限性和技术为人服务的本质,要求人和机器更好地协作,人机协作和融合才是人工智能行业应用的最佳图景。
  人工智能技术在档案行业的应用过程中,必然也要解决人工智能技术迭代和革新过程中的人工参与和人机并存问题。首先,作为设计者和管理者的角色,档案工作者和技术人员应该不断增强自身对档案信息资源的理解能力,增强对用户需求理解的能力,并将这种能力尽可能应用到机器学习和迭代的设计流程中,同时尽可能多地将功能需求、专家系统和纠错方案等要素纳入机器学习过程,对其安全性、可靠性和准确性等进行不断改进,使得机器在学习档案业务的同时也不断学习人类思维,促进人工智能技术的成功应用。其次,人要给机器学习档案工作创造好的条件和环境,此时人将作为协助者的角色,在功能要求、行业知识、档案数据等关键要素设定完备的前提下,在机器学习和运行的过程中,尽可能少地干扰其学习和工作过程,给予其充分自我学习和解决问题的发展空间,充分发挥机器在某些特定工作环境中的主导作用。
  人工智能不仅是一种技术,更是一种思维。目前国内外人工智能技术本身及各行业应用的发展速度虽然很快,但其在档案工作中的应用还在起步阶段,仍然存在技术发展欠缺、管理理念落后、资源挖掘不足等问题,可谓机遇与挑战并存。在知识融合和信息大爆炸的时代,相对滞后的档案人工智能行业应用需要主动迎接新技术新思想,结合自身的数据资源优势和行业专家水平,将科学技术与档案人文精神相结合,不断推进人工智能在档案领域的更深层次和高水平的发展。
  *本文系国家档案局“人工智能技术在工商档案管理中的应用研究”(课题编号:2018-X-23)及北京市档案局“人工智能技术在工商档案管理中的应用研究”(课题编号:2019- 06)科研项目阶段性研究成果。
  注释及参考文献
  [1]宋之杰,肖寒.加强人工智能和产业发展融合[N].河北日报,2019-02-13(7).
  [2]陈映村,程鹏飞.人工智能的发展现状及应用[J].信息与电脑,2019(2):136.
  [3]人工智能/腾讯研究院.人工智能[M].北京:中国人民大学出版社,2017:24.
  [4]信息抽取技术及前景浅析.[EB/ OL].[2018-03-09].http://www.docin.com/ p-70263324.html.
  [5]张师师.如何做好档案开放中的划控鉴定工作[J].黑龙江档案,2018(4):74.
  [6][7]杨九龙,阳玉堃,许碧涵.人工智能在图书馆应用的理论逻辑、现实困境与路径展望[J].图书情报工作,2019(4):35+36.
其他文献
江苏金坛的地方史专家范学贵老先生年届86周岁,又出第五本书了。  范老并非专业出身的史学工作者,自1994年从金坛市级机关退休后,他成为口述史料采集、地方抗战史研究的志愿者,成果累累。范老先后出过四本书:《战斗在茅山下——江苏省金坛地区新四军老战士访谈录》29万字,2007年出版;自传体回忆录《伴随共和国走过60年》30万字,2009年出版;《金坛慰安所遗址资料汇编》,2010年印发;《新四军老兵
期刊
摘要:内蒙古地质档案馆作为地质行业专业档案馆,承担内蒙古自治区地质档案资料收集、整理、鉴定、保管、汇交、借阅和开发利用等职责。通过多年努力,内蒙古地质档案馆信息化建设取得了重大成效,利用现代化信息化技术对现有资源进行整合,建成了地质档案资料大数据中心,实现了地质档案资料“收、管、用”全流程信息化管理与“一站式”服务。  关键词:地质档案资料;信息化;“一站式”服务;数据中心  内蒙古地质档案馆作为
期刊
摘要:图纸的归档工作是地铁档案管理工作的一项重要内容,为使归档后的图纸达到不易褪色、易于保存、耐久耐用的标准,各地铁单位多选择有氨晒蓝图作为图纸归档的纸张形式,近年来由于考虑到蓝晒图在制作过程中会对环境造成污染,各地开始使用其他形式的图纸取代有氨晒蓝图进行归档,文章就图纸纸张问题展开讨论,结合无锡地铁的工作实际,进行了一些思考并提出解决方案。  关键词:地铁档案;施工图纸;竣工图纸;有氨晒蓝图;机
期刊
7月8日至12日,江苏省档案馆开展主题教育集中学习。12日上午,省档案馆召开主题教育集中学习研讨会,馆领导陈向阳、赵深、陈万田、孙敏、邹华、于晓庆作了学习交流,全馆处级以上党员干部参加了研讨会。省纪委监委派驻省人社厅纪检监察组副组长沙荣胜到会传达了中纪委有关文件精神,省委第一批主题教育第七指导组罗殿传副处长到会指导。馆主题教育领导小组组长、馆长陈向阳主持了会议,对前期开展主题教育情况进行了小结,并
期刊
江苏省政府参事室专家到丹阳市档案馆调研  近日,江苏省人民政府参事室特聘研究员、省谱牒和家族文化研究会会长赵建中和省社科院历史研究所研究员、谱牒和家族文化研究会副秘书长王裕明在镇江市档案馆馆长徐策和副馆长於志洪的陪同下,到丹阳市档案馆调研谱牒文化研究工作。丹阳市档案馆馆长张佳俊、副馆长史伟方陪同參观了丹阳家谱馆。张佳俊向省政府参事室专家汇报了近年来丹阳市档案馆全力打造丹阳家谱馆平台,主动挖掘馆藏家
期刊
摘要:文章聚焦人民政协的提案档案工作,在总结提炼政协提案档案三大价值作用的基础上,以苏州市政协提案档案工作实践为例,概括政协提案档案工作所涉及的主要内容,并围绕档案工作“收、管、存、用”等基本环节,对做好新时代政协提案档案工作提出意见建议。  关键词:人民政协;提案;档案工作  提案工作是人民政协的一项全局性、基础性工作,伴随着人民政协的诞生而产生,伴随着政协事业的发展而前行。由此形成的提案档案,
期刊
省档案馆压实责任督促整改做好巡视“后半篇文章”  1月8日,江苏省纪委监委派驻省人社厅纪检监察组组长陈良灵一行对省档案馆巡视整改工作进行督导检查。陈良灵充分肯定了省档案馆以高度的政治意识和政治自觉,认真落实省委第五巡视组反馈的巡视整改意见,从快从严研究整改措施的做法,希望省档案馆聚焦问题精准发力,进一步压实责任督促整改。  省档案馆馆长陈向阳表示,要认真对待省委第五巡视组巡视中发现的问题,深挖根源
期刊
摘要:医院档案是医院文化建设的第一手资料和重要依托,在医院文化建设过程中发挥着重要作用。文章结合当前国内医院档案服务于医院文化建设的现状,对皖南医学院弋矶山医院自建院130年以来形成的文化档案助力医院建设的实践以及取得的成效进行总结和探讨。  关键词:医院文化;档案;建设  医院文化是医院的灵魂,是医院在长期发展建设和医疗服务活动中形成的宝贵的物质及精神财富,它随时代发展、社会变革、医院所处环境变
期刊
档案编研是档案工作的重要组成部分,是档案馆开发、利用档案信息资源,为地方建设和社会服务的重要途径。以1990年宜兴市档案馆编制《档案馆全宗指南》《兰台芳草——宜兴档案工作论文汇编》等内部工具书和专业参考资料为起点,到2006年正式编辑出版《宜兴历史上的今天》一书,宜兴档案编研工作逐步走上正轨。截至2018年,宜兴市档案馆共公开出版编研成果《砂海撷英》《闲品阳羡》《宜兴家谱提要》《宜兴科举考》等15
期刊
随着国内新冠疫情的日趋平稳、武汉解封、援鄂医务工作者的陆续撤回,省档案馆对抗疫档案资料的征集力度逐步加大。截至4月,省档案馆已征集到形式多样种类丰富的战“疫”档案:援鄂医护人员抗疫日记162篇,抗疫相关照片2000余件、视频147件、文艺作品5件、新闻报道350件等电子资料共10.7G,实物30余件。捐赠者以南京、徐州、苏州、南通、连云港、淮安、盐城、扬州、镇江等地10余家医院及疾控中心50余位医
期刊