复杂场景下基于深度学习的文本检测与识别方法研究

来源 :福州大学 | 被引量 : 0次 | 上传用户:haofei88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本检测与识别是计算机视觉、模式识别与人工智能领域的热点研究方向。传统的光学字符识别方法对存在变形、噪声、不同结构布局和复杂背景等复杂场景下的文本检测与识别任务表现较差。随着深度学习技术的发展,基于深度学习的文本检测与识别算法在复杂场景下取得了较好效果。然而,相较于英文字符,中文中仅常见字符就多达数千个类别,这使得数据集构建困难;其次,不同于英文文本通常词内字符间距小,词间距大,中文文本字符间距可能与词间距相当,现有行文本检测算法可能导致其被拆分;此外,字符识别任务常使用one-hot编码,忽略了字符间的内在相关性,且字符类别存在长尾分布问题,使得中文字符识别困难。但是目前,以英文为主的通用文本检测与识别的研究较多,而针对中文场景的文本检测与识别研究较少,基于上述问题,本文的主要研究内容如下:(1)针对现有行文本检测算法对文本检测易出现文本被切割的问题,提出了基于注意力高斯字符响应的字符和文本检测方法,通过预测字符响应,结合设计的不同自适应阈值模块实现字符级与词文本级的并行检测。该方法首先基于FPN结构实现特征提取;然后通过一个期望最大化注意力模块增强低秩特征;接着提出了基于高斯热图的字符响应方法,并提出了自适应字符边界阈值、自适应字符连接阈值与自适应文本边界阈值,及融合三组自适应阈值的文本阈值融合模块。其中,分别使用自适应字符边界阈值和自适应文本融合阈值对字符响应图进行分割,实现了字符级与文本级的并行检测。(2)针对中文字符数据集采集成本高,基于Pix2Pix与Cycle GAN的字符图像生成方法,提出了基于多条件生成对抗网络的字符图像生成方法。该模型基于生成对抗网络,首先设计了基于U-Net结构的生成器,在下采样的过程中利用注意力机制将风格图像与源字符、目标字符的形状特征充分融合;其次优化了判别器的判别目标;最后提出了可直接使用现有场景文本数据集训练网络的方法。基于上述提出方法,最终实现了特定字符到特定场景风格迁移的图像生成模型。(3)针对one-hot编码忽略了字符的形状相似性,提出了基于字符嵌入信息融合结构的字符识别模型。该模型首先基于汉字拆字原理定义了字符之间的相似性,然后设计了基于Skip-Gram的字符嵌入训练方法,设计了基于字符嵌入信息融合结构的字符识别模型,以此提升字符识别的准确率。此外,针对汉字生僻字图像样本收集困难的问题,利用提出的基于多条件特征融合生成对抗网络的字符图像生成模型有效改善了字符的长尾分布问题。
其他文献
人体动作识别通常是指对给定的视频流数据或者三维骨架数据流进行分析并识别出其所代表的动作类型,在体育、人机交互、智能监控等领域上具有广泛的应用前景,目前已经成为计算机视觉领域中的研究热点之一。随着深度采集设备的推广,三维骨架数据直接给出了人体骨架在动作执行过程中随时间变化的三维坐标序列。因此,相较于视频流下的人体动作识别,三维骨架信息下的人体动作识别具有不易受到光照、遮挡以及环境变化等影响的显著优点
学位
布局是超大规模集成电路布局(Very Large Scale Integration,VLSI)电子设计自动化中非常重要的一环,是典型的大规模NP-困难问题。布局解的质量对芯片的性能、功耗、面积等有着十分重大的影响。随着现代先进制程的发展,电路芯片的集成度不断提高,芯片上的单元个数快速增长至百万级甚至更高。同时,为了优化电路芯片的性能,越来越多的预先设计的特征被加入到布局约束中,使得现代先进制程下
学位
随着人工智能的发展和5G时代的到来,三维视觉和虚拟现实等应用也越来越青睐点云表示的媒体。但其海量性也带来存储和传输上的问题,需要对数据进行高效表示。先前逆向建模中的关键点采样、点面片聚类等精简技术由于目标不同而不适用,现有压缩技术在应用范围上又具有局限性。本文结合稀疏编码和深度神经网络的优势,提出了结合稀疏编码的点云压缩算法,并将算法应用于大规模场景和表面光场数据的压缩中。本文的主要工作与贡献包括
学位
随着因特网与多媒体硬件技术的不断革新,出现了越来越多的大规模无标记高维图像。如何高效地处理这类图像数据始终是一个热门且重要的研究方向。特征嵌入学习是一类有效的学习方法,它不仅仅降低了数据的维度,同时保留原始特征大部分的物理信息,适用于许多的研究领域。然而经典的监督特征嵌入学习算法无法有效地解决无标记数据,而无监督特征嵌入学习算法在面对此类高维数据也存在效率低下和过拟合等问题,这对于后续的图像分类等
学位
近年来,基于卷积神经网络的目标检测方法取得了很大的进步,然而在大规模的图像中检测小目标仍然是一个具有挑战的任务。因为小目标在图像中具有较低的分辨率,有限的像素不足以保留小目标的细节信息。而目标检测模型对输入图像进行下采样,提取的特征逐渐丢失了空间信息,影响了小目标的特征表示。小目标检测将直接影响下游许多任务,如无人驾驶汽车从高分辨率的图像中实时、准确地检测路况、交通标识、障碍物等是保证驾驶安全的前
学位
零件尺寸测量是保证产品精度和质量的重要环节。目前,零件尺寸的测量,特别是微小零件,主要是以人工手动接触式测量为主,存在测量精度低、速度慢的问题。随着图像分割技术、硬件计算能力的日趋成熟,本文通过图像分割的方法对微小零件尺寸进行测量,该方法具有精确、非接触式等特点,并且能够满足现代化工业生产需要。本文针对手表定子片零件进行尺寸测量,定子片精度要求为微米级别,其大小均在25mm以内。本文通过传统的图像
学位
可解释性文档分类旨在对文档进行分类的同时生成解释信息作为模型决策依据。现有基于深度学习的解释方法有效增强了模型的可解释性,取得了显著的成果。但仍存在以下问题:现有方法未能充分考虑文档中单词级、句子级等多个粒度上的文本语义特征;已有模型训练时通过优化变分下界难以精确估计样本分布导致生成文本质量不佳;当前方法对长文本信息进行建模时容易丢失部分长距离依赖特征。本文针对上述问题展开以下三个方面的研究:(1
学位
在需要决策的实际问题中,我们所能获知的信息往往是不确定的、不完整的、且精确度不足。为了解决这类问题,Yang等人提出了基于D-S证据理论的置信规则库推理方法。在此基础上,Liu等人提出了数据驱动的扩展置信规则库的构建方法,它通过对前提属性引入置信分布的方式,进一步提升了规则对于已知知识的表示能力。作为一类模拟专家解决现实问题的专家系统,已经吸引了很多学者对其展开了相关研究。但目前置信规则库仍存在着
学位
大量交通信息的收集使得人们能够高效准确地统计交通流量。这些统计结果对政府决策、区域建设、科学研究起到了重要的数据支撑作用。然而,已有研究表明直接发布统计数据存在严重的个人隐私泄露的风险。如何在发布交通流量数据的同时保证个人隐私的安全性是当前数据库领域的研究热点。作为一种公认的隐私标准,差分隐私提供了严格的隐私安全保证,并被国内外学者广泛研究。针对交通应用场景,本文考虑了差分隐私二维空间数据划分发布
学位
短临强降雨,一般指短时间内降雨强度高的一种强对流天气现象,主要发生在每年的汛期。短临强降雨往往伴有强风,冰雹和雷暴等极端气候现象,容易引起山洪、泥石流、城市洪涝等自然灾害。提高短临强降雨的预测准确度是气象研究人员的重点研究目标之一,但由于短临强降雨的高突发性,气象数据的高维非线性导致传统预测方法效果不佳。而且传统预测方法往往只采用了单方面的气象数据,模型抗干扰性不强,非常依赖于数据的准确性。针对以
学位