基于深度神经网络的文档图像信息提取方法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户：frigate999

【摘要】

：

【作者】

：

赖逸

【机构】

：

电子科技大学

【出处】

：

电子科技大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

目前得益于高分辨率的扫描设备和成熟的计算机技术,一些可获得的OCR软件识别系统可以在大多数场景中为用户提供简单的文字识别任务。但仅仅是对文档中文字进行识别是不够的,最新的研究方向是扩大文字识别的使用范围,希望能够将文档中的关键信息进行提取,其中一个典型的实际运用场景就是将票据中的重要信息进行提炼,将其中重点关注的信息进行提取,例如价格,商品名,店铺等,以便于后续的进一步筛选。文档图像的信息提取是文档信息处理系统的重要组成部分,以及对复杂文档中的文字进行高效识别所必不可少的环节,同时也是将纸质文档转换为电子文档的必须阶段,也是文档信息内容分析不可或缺的部分。本文结合现有的方法,设计了一种结合检测和识别模型的方式对文档图像中的重要文字信息进行提取。本文的主要工作内容有:（1）文字检测模块,本文基于Mask R-CNN的检测模型,针对图像中的文字特点,对特征提取阶段的结构进行优化,丰富了提取到的特征的表现能力,提高了检测的召准率。同时,本文针对训练使用的数据集中图像较少的情况,通过首先在现有的合成数据集上进行预训练,然后再将预训练模型在实际拍摄到的真实图像中进行微调训练,实现对真实图片中的文字的有效检测并在wildreceipt数据集上得到了91.56%和85.03%的准确率和召回率。（2）文字识别模块,本文在Encoder-Decoder+Attention的文字识别模型的基础上,针对网络层数加深导致的特征语义信息降低的情况,提出了基于特征融合的特征增强网络来增强提取到的图片特征的表现能力,从而进一步提高文字识别的准确率并且在wildreceipt数据集中识别准确率提高了2.13%。（3）信息融合提取模块,本文针对提取到的不同结构的信息的结构化问题,提出了信息结构化模块用来将不同模态的数据进行结构化处理便于后续的统一计算。最后通过分类的思想对每个文本行进行分类,确定出需要提取的类别。此外,针对分类阶段的特征融合,提出了视觉和文本的特征融合网络,以更好地利用提取到的各种模态的信息,提高分类效果,最终在wildreceipt数据集上与对比的方法分别提高了20.3%、21.6%、3.1%、1.0%。

其他文献

基于机器学习的锌离子电池循环寿命预测方法研究

可充电水系锌离子电池因为其安全环保的电解质,对大规模储能技术具有广泛的吸引力。但这并不代表锌离子电池不存在安全隐患,电池剩余使用寿命（Remaining Useful Life,RUL）预测是保障其进一步安全使用的关键技术。随着机器学习的兴起,越来越多的研究开始用机器学习预测电池的RUL,但是准确地预测每一个电池RUL仍然是困难的事情,这是因为电池的退化过程很复杂,其内部的化学反应具有很大的随机性

学位

汉晋时期祥瑞图像研究——基于墓葬壁画与画像石

祥瑞图像源于汉代儒家思想中的天人感应学说,是汉代墓室画像中常见的题材。梳理现今研究成果,发现目前学者对祥瑞图像的界定不统一,对准确理解祥瑞的功用等造成了一定的影响。本文通过梳理文献材料、考古资料,结合前人的研究成果,总结归纳出三个判定标准,据此标准,将汉代祥瑞图像分为标准祥瑞图、祥瑞装饰图两大类。标准祥瑞图发现数量少,有固定的格式与范本,呈“图录式”排列。整幅图有若干单元组成,每个单元内绘制祥瑞物

学位

Bi9M2O18Cl（M=P,V）的相变、光催化产氢及其离子掺杂发光性质的研究

随着工业化的发展,能源损耗与环境的污染使得人们急需开发新的清洁能源。光催化剂可以通过一系列氧化还原反应可以将广泛而又丰富的太阳能转化为氢能这种新的绿色清洁能源,因此越来越多的科学家致力于可见光催化分解水产氢的研究中。此外,在发光领域,白光发光二极管这一新型固态照明方式因其卓越的发光效率、低功耗、可靠性和环境友好性而备受关注。而在追求发光效率更高性能更好的白光发光二极管过程中,稀土掺杂荧光粉对其发展

学位

社交媒体文本的作者归属问题研究

作者归属指通过测量一些文本特征用以区分不同作者写的文本,是自然语言处理的一个重要分支。随着信息技术的显著增长,作者归属的实际应用数量已经在几个不同的领域增长,如刑法,民法,以及计算机安全。每个作者都拥有影响其书面作品形式和内容的特殊习惯,这些特点往往可以用机器学习算法来量化和测量。早期的研究中主要针对这些特点手工设计特征,但是手工设计的特征往往只能提取一部分特征作为写作风格特征。由于深度学习方法能

学位

基于视觉SLAM的多机器人协同自主定位系统的设计与实现

近年来,随着人工智能技术的不断发展,对定位的效率和精度的要求也在不断提高,而基于视觉SLAM的集中式多机器人协同定位系统可以明显提升定位精度与效率,因此,越来越多的科研工作者投身于对多机器人协同定位的研究。同时,构建实时稠密地图是多机器人协同定位系统需要解决的问题之一。目前大多数多机系统构建的地图是稀疏点云地图,但是稀疏点云地图无法为导航任务提供帮助,因此实现自主定位的同时构建可用于导航的地图是多

学位

从陶器上的指纹痕迹看西头遗址的古代陶工

指纹用于辨认个体身份的历史已久,尤其是在法医学中,指纹已成为个体独一无二的身份认证。指纹学研究表明:男女的指纹嵴线密度差异显著,使用指纹嵴线密度测量来区分成年男女,准确率达80%—90%。目前的考古学研究中,除体质人类学能够根据人骨的特征对古人身份作出解释外,我们很难从其他途径获得古代居民的身份信息。指纹分析技术则为这一认识提供了一种新方法,留在陶器上的指纹作为过去的陶工和他们身份之间为数不多的联

学位

硫酸乙酰肝素对NLRP3炎性小体的激活作用及其机制研究

目的:明确硫酸乙酰肝素（Heparan Sulfate,HS）对NLRP3炎性小体的激活作用并阐明其确切机制,为HS相关疾病的发生发展机制的阐释提供新的思路,并为其药物治疗提供新的靶点。方法:（1）经PMA诱导的人单核细胞THP-1经HS单独处理或与其它信号二诱导剂共处理后,通过ELISA法检测细胞IL-1β的分泌量来初步明确HS对NLRP3炎性小体的激活作用;（2）以MCC950为对照药,THP

学位

陕西咸阳蒲家寨墓地出土人骨研究

蒲家寨墓地位于陕西咸阳,共发掘墓葬335座,在发掘区域内罕见打破关系,排列有序,是一处经过规划的墓地。该墓地存续时代包含整个战国时期,是研究关中地区秦人体质健康、种族成分等信息的宝贵材料。本文在人类骨骼考古学的研究理念与方法指导下,对采集自蒲家寨墓地的123例人骨进行了人口学、古病理学、颅面形态、种族类型等方面的分析,意在最大限度地提取人骨信息,结合考古学文化信息,研究蒲家寨古代居民的体质特征、人

学位

基于场景图的视觉描述生成方法

视觉描述生成是一项跨模态的任务,同时结合了自然语言处理与计算机视觉的领域,视觉描述生成任务会将输入的视觉信息转换为语言描述。作为一个跨模态任务,视觉语言描述生成任务最大的难点在于视觉与语言之间存在的语义鸿沟,但是对视觉描述生成的研究是有重要意义的,有助于推动人工智能从感知智能向认知智能转变。视觉描述生成算法有多种处理视觉特征的方式,如基于卷积神经网络提取全局特征、基于目标检测模型提取区域特征、基于

学位

自适应的轻量化目标检测模型研究与实现

在计算机视觉技术快速发展和无人机逐渐得到广泛应用的大背景下,对无人机拍摄的图像资料进行目标检测的需求不断增加。首先,这类图像或视频是典型的小目标;其次,在实际的信息采集过程中会受到光照、天气、视角等影响,导致域间分布差异,模型精度下降;最后,受无人机硬件资源限制,要求模型在保证准确率的前提下,尽可能轻量化。为了解决上述问题,本文从小目标检测、领域自适应和知识蒸馏三个角度,对无人机复杂场景下的目标检

学位

基于深度神经网络的文档图像信息提取方法研究

与本文相关的学术论文