基于双注意力机制的场景中文文本识别

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:xixihahawotiana
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文字作为人类信息交流的重要载体,蕴含着非常丰富的语义信息,对图像中文字的识别与理解具有重要意义。随着人工智能技术的飞速发展,基于深度学习的场景文本识别技术取得了较大进展,然而,目前的方法还存在识别精度不够、对于形变文字的识别能力不足等问题,离实际应用尚有一定差距。目前的场景文本识别算法存在着以下问题:(1)特征提取网络不能很好地适配场景文本的输入图像;(2)不能直接地利用显式语言模型来充分挖掘语义信息;(3)现有基于一维编码解码网络的识别算法不能有效处理二维图像信息。针对以上问题,本文提出了一种基于双注意力机制以及二元关联语义信息的场景中文文本识别方法。包括特征提取模块、编码解码模块、二元关联语义信息模块、双注意力网络模块等。本文的具体贡献如下:1.针对目前特征提取网络没有办法很好地处理小尺寸的文本输入图像。本文提出了一个多尺度融合残差网络,有效地提升特征提取能力。该网络在ResNet使用跳线在卷积层输入输出做残差的基础上,同时对输入输出特征图进行通道拼接,来对不同尺度的特征图信息进行融合。由于跳线数量没有增加,不容易引起过拟合,同时可以利用不同尺度的信息帮助识别。2.为了有效地利用语言模型,本文借鉴因子分解机算法,提出了一个二元关联语义模型。可以同时挖掘顺序信息以及跳步信息。该模型在预测序列某个字符时,使用以往的预测字符向量进行两两点乘,得到二元关联语义信息,接着利用二元关联语义信息指导当前预测字符的生成。相对于只能隐式学习顺序信息的LSTM可以更好地挖掘语义信息。3.针对不规则文字的识别,提出了一种基于双注意力机制的场景文本识别模型,可以同时处理二维图像特征以及一维序列特征,以应对一些扭曲文本的识别。双注意力机制利用序列注意力权重对序列特征进行加权,经编码器编码得到一维序列信息,同时使用图像注意力权重对二维图像特征进行加权,得到二维图像信息。最后,结合序列信息以及图像信息进行识别。双注意力机制可以很好地学习输入图像的空间以及结构信息,相对于传统基于序列的单注意力机制起到了很好的信息补充作用。本文利用中文文本场景数据库MTWI以及百度OCR进行了测试,实验结果表明,本文提出的场景中文文本识别模型,相对于基础编码解码网络,识别性能在两个数据集上分别提升了 2%、6%。在相同数据集上与业界领先方法SAR相比,分别提升了0.7%、2.9%,验证了本文方法的有效性。
其他文献
随着国民经济的发展及环境恶化,开发新型能源已经成为迫切需求。太阳能作为一种新型能源,具有资源丰富、无污染等优点。在我国北方采暖地区,城市主要采用集中采暖方式,而农村地区绝大多数是采用以煤、天然气等燃料的分散自供暖方式,在污染空气的同时经济性也较差。采用太阳能集热器将太阳能转化为热能作为建筑采暖热源的方式既环保又经济。本文对太阳能微小通道集热器的性能进行了研究与优化。首先建立了该装置的数学和物理模型
在深度学习中,GPU通常用于加速深度神经网络的训练过程,然而GPU有限的物理内存意味着它很难训练大规模的深度神经网络模型。现有的内存优化方法包括重新计算方法和CPU-GPU迁移方法,它们对神经网络中的所有层应用单一的优化方式,不能实现理想的训练性能,忽视了神经网络中不同层的数据迁移成本和计算成本不一致的重要特征。针对现有优化方法的不足,提出一种基于层的内存复用和优化方法——Layup,包含两个策略
互联网的飞速发展使网络信息数量呈现出指数增长的趋势,这一现象为用户带来海量信息的同时也造成了信息过载问题,用户在面对大量信息时难以从中获取感兴趣的高质量信息。针对
背景:近年来大量的研究结果提示真正的致病性遗传变异多位于基因调控元件中,如增强子和启动子。随着三维基因组学的发展,研究者们发现增强子与其靶基因启动子的交互作用通常在一个高度有序折叠的基因组单元即拓扑关联结构域(topologically associating domains,TADs)内进行,并且相邻该区域的边界富集了许多转录因子CTCF的结合。TAD边界的干扰被证实可以影响染色质折叠成环,扰乱
近年来,随着科技的进步和人工智能的快速发展,人们对大脑产生的生理信号中的脑电信号情感识别有了越来越多都研究。脑电信号是由人的中枢神经系统产生的一种生理信号,人的情
对特定类型神经元的活动进行时间精确、无创和远程的控制是神经科学长期追求的目标。光遗传学技术能够在毫秒量级的时间内准确控制遗传学上靶定的神经元活性。然而目前常用的光遗传技术:基于植入光纤的方法会对实验对象的组织及行为造成损害,并且很难用于外周神经元的光刺激;基于红光的方法不能穿透深部组织;基于上转换纳米材料和近红外光遗传方法(上转换光遗传)受限于近红外光被生物组织中水大量吸收导致的低发光效率和过热现
人体姿态估计算法是计算机视觉领域的一个基础性研究。它是行为识别、人物追踪等其他计算机视觉研究的基础。人体姿态估计可以分为单人任务和多人任务。在现实的应用场景里摄
研究目的:甲硫腺苷(S-Methyl-5’-thioadenosine,MTA)是蛋氨酸代谢的产物,以往研究表明,其在癌症、炎症、细胞增殖等过程中发挥了重要的作用。本课题组前期工作发现,体内关键
随着5G的发展,配备多核处理器的移动设备需要处理越来越复杂的应用程序。这些应用程序为人们提供便利的同时,移动设备也必须承担更多的能耗和更高的延迟。然而,移动设备的计
柔韧性适能作为健康体适能的一项重要指标,在保持人体健康中扮演着重要角色。然而现今的柔韧性检测方式依然依赖于传统的测试仪器,使得测量需要耗费大量的人力物力,且其测试