基于深度学习的表格结构识别算法研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:mathayus0422
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
表格结构识别是文档识别(Document Recognition)领域中一项基础且具有挑战的任务,目的是获取单元格的结构信息。最近,深度学习已经成为解决表格结构识别的主流方法,通过训练神经网络得到最佳的拟合模型。基于深度学习的表格结构识别有两种主要算法,分别是识别表格行与列算法和识别表格框线算法。识别表格行与列算法通过获取表格的行与列来识别表格结构,现有的有效方案是使用语义分割(Semantic Segmentation)技术分割表格的行与列。这一方法将行与列的预测简化为一列与一行像素的预测,这样虽然能够降低网络的学习难度,但造成了预测结果容错率低的问题。在具体场景下获取到的表格图像往往拥有较为复杂的行与列结构,因此使用识别表格框线算法对此类表格进行结构识别更加合理。表格框线像素数较少,所以这一算法存在正负样本不平衡的问题。因此,为了解决上述两种表格结构识别算法在具体实现中存在的问题进行了深入研究,具体研究内容如下:(1)本文设计了一种基于识别表格行与列算法的表格结构识别网络,以解决识别表格行与列算法预测简化的行与列标签时产生的低容错率问题。在网络中使用设计的行重组模块和列重组模块分别从包含行与列特征的整体特征中获取与行强相关的行特征以及与列强相关的列特征。本文在ICDAR 2013数据集上进行实验,实验结果表明与直接预测简化的行与列算法相比,该方法的行与列平均F1值更高,达到了 95.24%。(2)本文对设计的表格结构识别网络进行改进,为了避免行与列重组模块受低级特征中细节纹理特征的影响而产生质量较差的行与列特征注意力图,在行与列重组模块内使用含有较多语义信息的行或列特征引导网络学习,同时实现了在解码端解耦行特征与列特征的解码。本文在ICDAR 2013数据集上进行实验,实验结果表明改进的方法在没有增加参数量的情况下进一步提升了性能,行与列的平均F1值达到了 95.65%。(3)本文设计了一种基于表格框线热图的表格结构识别网络,以解决识别表格框线算法在识别场景表格图像的结构时所存在的正负样本不平衡问题。该方法自动生成表格横向框线和纵向框线的高斯热图,并用编解码网络分别回归横向和纵向框线的概率值。本文在拍摄环境复杂多变的银行表格数据集上进行实验,实验结果表明该方法有较强的抗阴影、去模糊和抗倾斜能力,预测得到单元格的平均精确度达到了 92.71%。
其他文献
随着分布式电源(Distributed Generation,DG)接入容量的日益增长,配电网在运行安全与供电稳定等方面面临着巨大挑战。DG接入配电网后,系统由原本简单的单一供电网络向复杂的多电源供电网络转变,发生短路故障时电流方向难以确定,且DG以不同容量、数量、位置及类型等各种条件接入对配电网的影响各不相同,所以原有的适用于传统配电网的保护方案不能满足含DG接入的配电网保护要求。针对上述问题,
学位
近年来,小型飞机运输系统促进了通用航空的发展,拓宽了航空运输服务。在这样的背景下,国家空域系统发生了巨大变化。近十年来,无人机已快速发展为民用应用,导致中低空空域日益拥挤,所以空中车辆安全问题成为空地综合车辆网络面临的主要挑战。而传统的监控技术无法支持未来密集的空中交通管理(Air Traffic Management,ATM)。因此,采用一种先进的自动相关监视广播(Automatic Depen
学位
单目标跟踪是计算机视觉的关键领域之一,该任务要求在给定第一帧目标信息情况下,在后续视频帧中标注出目标状态。判别性目标跟踪算法因其对目标背景信息的充分利用提高了模型判别性而受到跟踪领域研究人员的青睐,但该类算法仍存在对网络不同特征层信息利用不充分、目标回归不精确以及模型泛化能力不足等问题。为解决以上问题本文做了如下的工作:(1)针对跟踪网络未能充分利用网络不同特征层信息问题,本文基于判别性目标跟踪算
学位
在本论文中,作者在其他学者已给出的组合恒等式证明的基础之上,重点探究了含有高阶Shifted-Harmonic数Euler型求和的组合恒等式。主要是利用部分分式数学方法和借助递归迭代数学思想,建立一组有意义的关于Euler型求和的组合恒等式。具体内容包括:(1)主要利用部分分式展开法研究了含有高阶Shifted-Harmonic数与二项式系数的倒数乘积的求和公式,形如级数(?)的探究,得到有意义的
学位
选择性分割是指按照某种方式对图像中单个感兴趣目标的局部分割,是医学影像高效精准分析的前提和基础。基于医学图像的选择性分割,在疾病的病灶识别、早期诊断、治疗方案规划、术中导航等方面起着非常重要的作用,是当前医学图像处理研究中的热点和难点问题。本文研究基于偏微分方程的图像选择性分割方法,主要研究内容和创新点如下:(1)研究选择性分割模型-RCI模型的快速数值求解方法。现有的求解RCI模型算法是基于加性
学位
全世界每年因为线虫侵染和寄生农作物经济损失巨大,传统的物理和化学方式防治线虫具有许多局限性。随着生物研究领域的快速崛起和发展,线虫的生物防治逐渐具有可能性,其中杀线虫真菌成为最具有潜力的生防制剂之一。而捕食线虫真菌是一种主要的杀线虫真菌,利用线虫诱导或在特定环境下可以由腐生转化为寄生,从而形成了各种捕食器官如三维菌网、收缩环、粘性分枝等来捕获并侵染线虫,从而达到防治线虫的目的。本论文利用RNA-s
学位
总所众知,电力变压器在整个电力系统占据举足轻重的地位。目前国内大型电力变压器主要为油浸式,其内部在某些情况下可能会有空气进入,例如在一些生产出厂或者高负荷运行的场合,当电力变压器中的绝缘油与一些绝缘材料长时间与空气接触后,可能会发生劣化现象,造成产生故障的隐患,所以难免会出现一些故障。当故障发生时,电力变压器绝缘油中将会产出一些故障气体,然而不同的故障气体往往对应着不同的故障类型,且不同的故障之间
学位
近年来,图神经网络(Graph Neural Networks,GNN)已成功的广泛应用于生物医药、系统建模、推荐系统、文本分类、社交网络等当今时代重要的各项领域。随着人工智能应用的不断发展,图结构数据库的规模也越来越大,如何对大规模图结构数据库进行有效训练,是图神经网络发展面临的重要挑战。本文首先采用随机游走图采样算法以随机游走的方式形成多批次子图,以解决大规模图结构数据库的训练复杂度问题,同时
学位
作为人机交流的桥梁,基于脑电图(EEG)的脑机接口(BCI)旨在将大脑活动直接解码为不同的控制命令,该技术在多个领域大放异彩。近年来过劳死报道频出,工程施工过程中因疲劳施工而导致的死亡人数逐年上涨,因此找到一种高效、便捷的疲劳检测方法成为工程施工安全研究的重点方向。同时,在医疗康复领域,脑电信号也有广泛应用。比如医学康复治疗瘫痪患者和脑控机器人中,通过解码脑电信号,可以分析其中的运动想象信息,实现
学位
由于照明强度以及数字设备动态范围的约束,拍摄的照片通常会出现能见度低、对比度不高和噪声放大等退化现象,这种低质量图像不仅视觉效果不佳,而且难以支持后期高级的计算机视觉任务。针对以上问题,本文在传统方向,基于Retinex模型的局限之处,提出了基于Retinex的纹理结构感知的非均匀光照图像增强算法;在深度学习方向,基于Retinex-Net网络模型存在的色彩保真度低以及放大噪声等缺点,提出了改进R
学位