自然资源档案文字识别研究及平台研发

来源 :青岛科技大学 | 被引量 : 0次 | 上传用户:dyyangcheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化时代的到来,纸质档案已经被时代淘汰。这些纸质档案不仅浪费了空间资源人力物力财力,并且查找起来也非常的麻烦。所以很多的企业都有将档案电子化的需求,但是通过人力进行电子化过程效率极其低下,而且录入过程需要非常仔细,否则就会出现录入错误信息的情况,这时就需要引入人工智能机器视觉来代替人工完成电子化过程。所以本文将自然资源档案文字识别作为研究主题,对其电子化过程需要用到的一系列算法进行研究,并且开发了一套自动化操作系统。本文将自然资源档案的电子化过程分为以下几个部分进行研究:对档案封面上的各部分区域进行检测,只获取本文需要的档案基本信息以及档案的清单列表部分;对上述获取到的部分进行文字检测以及文字识别过程;对档案内部的文件进行文字检测以及文字识别过程;整个系统的研发过程。本文使用基于深度学习的模型完成上述四部分。利用语义分割算法检测出档案封面上的基本信息部分以及清单列表部分。利用一般的语义分割算法u-net为基本网络,然后基于本文研究的档案封面的特点进行优化,主要优化了以下部分:通过注意力机制给档案封面上的基本信息位置以及清单列表位置设置更高的权重占比,增强区域检测的精确程度;一般的语义分割网络并没有规范检测到的区域的形状,所以本文引入了一个生成对抗网络对检测的区域进行规范。通过实验表明,本文的优化网络对比一般的语义分割在区域检测上存在明显的优势。通过序列标注算法对清单列表中的字符串进行文字检测。一般的图像分割方式,比如投影法是根据整个区域横向以及纵向的间隔分离出文字区域。这些方法都必须利用非常多的先验知识,并且很不容易得到统一的阈值。序列标注算法并不存在上述情况,在文字检测过程中存在明显的优势。然后本文采取图像特征提取和双向长短时记忆神经网路字符识别算法完成文字识别过程。由于档案内部的文件结构大不相同,很难找到一个通用的模板进行文字检测与文字识别过程。而且内部的文件有时需要保存其完整的结构特征,所以在本文的电子化过程中通过扫描图像的方式进行保存。但是本文提供了文字识别功能,在管理人员查看文件时,如果想要获取其中的文字信息可以通过文字识别功能获取其中信息,本文通过CTPN算法实现对文件中文字检测过程,然后利用CRNN模型进行文字识别。开发了一个完整的档案自动化存储工具对上面一系列功能进行集成,实现了自然资源档案文字识别系统的研发。并且在实际应用当中可以看出整个系统有着很高的应用价值。
其他文献
随着市场及消费者的需求日益多样化,白酒行业竞争不断加剧。企业欲在市场竞争中争得一定的位置必然要清晰了解企业所处的环境,也需要根据市场变化不断的挑战,建立适合企业发展的绩效评价体系来评价战略部署效果。随着政府廉洁政策和交通法规的不断完善,白酒行业的发展已经进入了瓶颈时期,太白酒业的销售量及发展受到威胁。经济指标只能作为绩效考核的单一因素,否则无法适应公司发展要求,因此不能作为整个评价体系的全部。本文
学位
自上世纪80年代起,随着国际经济与贸易的快速发展,经济一体化成为全球经济发展的主要形态。在经济全球化的背景下,中国企业尤其是已经具备一定实力的企业,想要在世界经济竞争中获得优势,就必须不断调整企业战略,优化企业管理模式,其中财务管理模式尤为重要。财务共享服务中心被认为是解决传统财务管理中各种弊病的有效模式。A银行在全球经济化的背景下,业务在全球范围内快速地扩张,业务规模日益扩大,业务类型不断增加。
学位
在地产行业增速放缓、利润持续下降的双重压力背景下,房地产行业已经告别了之前的高歌猛进、粗放发展时代。2020年疫情后,伴随着国家的持续调控,正式迈进了管理红利时代,从内部优化管理,建构更有效的绩效管理体系,带领员工持续提升业务能力,实现高质量组织绩效,成为大多数房企的共同选择。本文深入研究了知名房企的创新业务板块,对标如何进行绩效管理改进研究。本文主要从绩效管理的目标、具体执行、绩效结果的应用与反
学位
随着国家出台政策对新能源行业的大力扶持下,锂离子电池行业发展成为了备受中国新能源市场重视的领域。国内外企业积极投入到锂离子电池的产品开发中来,加紧扩大生产。由此产生的盲目扩张行为导致了锂离子电池产业的生产能力过剩以及激烈的行业竞争环境,由此锂离子电池企业的营销策略是需要重点关注的焦点。论文写作的目的在于梳理X公司3C类锂离子电池营销策略现状、面临的内外部环境,从而为其精准市场定位,找到适合其发展的
学位
钢铁工业在国民经济、社会发展、基础设施建设以及国防科技中都发挥着不可替代的作用。炼钢-连铸是钢铁工业的关键生产过程,该过程的高效调度能够有效地降低钢铁企业的生产成本、缩短钢铁生产周期、提高钢铁质量和生产效率。在实际的炼钢-连铸生产车间中,往往会有很多不可预测的扰动事件发生,如开工延迟、机器发生故障、紧急订单添加等,这些不确定性的扰动事件会引起原来的调度计划表失效,从而需要编制新的实时调度计划表,炼
学位
Z公司作为一家综合性的企业服务行业领先公司,在快速发展之中,激励机制渐渐的不适应公司发展的要求,引发了一些核心员工的不满。从实际出发,为了完善公司人力资源管理制度,激发核心员工更大的工作热情,使得公司能够更好的吸引能力出众的人才,公司有必要对现有的激励机制进行优化。本文运用赫茨伯格双因素理论作为理论基础,依照“提出问题、分析问题、解决问题”的研究思路进行研究。首先介绍了Z公司的基本情况,包括行业发
学位
生产调度是提高资源利用率和企业效率的关键环节,是依据生产进度安排生产资源以满足约束条件并优化性能指标的过程,在整个制造体系中扮演关键的角色。应用范围非常广泛,包括工业、商业等各方面。车间调度问题是整个生产调度的关键部分,是企业分配资源的主要途径,制造类企业一直在探索车间调度的优化方案。萤火虫算法(FA)是基于萤火虫在同伴之间传递信息建模得来,是一个新型群体智能优化算法。FA主要利用亮度、吸引度变化
学位
三维多目标检测是计算机视觉领域的重要研究方向,在无人驾驶、智能视觉、机器人视觉导航等领域中有着重要的应用价值。当前基于深度学习的单模态图像视图的三维目标检测,得益于图像丰富的语义信息,其研究取得了显著进展。但受限于平面信息,存在因遮挡造成目标信息缺失等问题,使用图像完成三维目标检测的算法精度较低。而激光雷达采集的点云数据具有高精度的三维信息,但点云存在稀疏、分布不均、无序的问题,在面对小目标、困难
学位
根据国家统计局数据显示,2006年后,我国年新出生人口数量开始出现下降趋势,新生儿出生率持续走低,到2019年人口出生率下降至1.04‰,出生人口数量下滑严重,母婴行业的使用人群也呈现缩小的态势。与此同时,我国经济水平持续提升,GDP和人均收入、消费水平逐年攀升,因此,居民的日常物质需求已经产生了巨大的变化,从过去的追求“有”逐步升级成追求“好”,母婴行业迎来了新的发展机遇,用户追求高品质的好产品
学位
学位