基于深度学习的端到端场景文本识别方法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:chaoge100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图片能带给人们丰富的信息,而文字作为人类智慧的结晶,其所包含的信息量往往要比色彩纹理等携带的信息量大得多,因此对场景图像中文字的识别和理解显得十分有必要和重要。由于场景文本图像的复杂性,传统OCR文字识别不再适应这种新的挑战。人工智能及计算机科学技术的新突破,使得基于深度学习算法理论的场景文本识别方法较传统OCR技术有了较大的提升,但离实际的运用还有不小的差距。因此,本文进行基于深度学习的场景文本识别方法研究具有重要的理论研究意义及广泛的应用前景。本文旨在研究自然场景下中文文本图像的文本识别方法,提出一种基于卷积神经网络及递归神经网络的端到端场景文本识别模型与方法。与传统文本识别方法相比,该模型与方法具有更好的特征学习和特征分类能力。本文完成的主要工作包括:1、提出了一种基于可变形卷积网络的场景文本图像特征提取模型。该模型利用可变形卷积神经网络实现了文本图像特征的自动提取,与其他模型相比具有更好的特征学习能力,对复杂场景文本图像的识别具有更好的鲁棒性,尤其表现在文本图像中字体存在几何变形变换时,鲁棒性更好。利用本文提出的特征提取模型,能较好地提取场景文本图像中的特征,可以有效改善文本识别的性能。2、提出了一种改进的Encoder-Decoder框架中的注意力机制计算模型。标准注意力机制通常采用全局注意力的方式进行解码,并且当前时刻的输入为全部输入信息的加权和。改进后的注意力机制采用了局部注意力的方式,且当前时刻的输入为局部输入信息的加权卷积平均,即先对局部输入信息求解权重因子,各局部输入信息依据权重因子进行加权后,进行卷积操作产生多个新的输入信息,最后将多个新输入信息的平均值作为当前时刻的输入。实验结果表明,本文注意力机制的改进可以提高0.5%文本识别的准确率。3、提出了一种改进的解码输出后处理操作。现有的后处理操作通常采用纯搜索算法或者融合了简单语言模型的搜索算法,其中有些搜索算法存在因搜索简单而性能较差或因搜索复杂而耗时偏长的现象。改进后的后处理操作在不降低解码性能的前提下减少了搜索空间和时间,并融合了有效的统计语言模型。实验结果表明,本文改进的编码输出后处理可以提高解码效率和解码准确率。4、提出了一种自然场景下复杂文本图像的数据增广方法。该方法通过对少量的真实场景文本图像建模,使合成的图像在字体、颜色、噪声、仿射失真等方面更加贴近真实文本图像。通过本文所给的数据增广方法,可以快速合满足自己需要的数据集,减少数据采集的人力物力。5、提出了一种基于二维递归网络的编码解码网络模型。该模型可以避免文本图像特征图降维和利用字符结构信息,实现了端到端的文字识别。在传统的Encoder-Decoder框架中,通常采用一维递归神经网络作为其编码解码的核心结构。然而一维递归神经网络仅仅适应于序列识别,因此为了采用Encoder-Decoder框架进行文本识别,通常需要将二维文本图像的特征图进行降维,转为一维序列输入到Encoder-Decoder框架中。这一操作严重破坏了中文汉字的空间结构,丢失了很大一部分的空间结构特征。本文采用二维递归网络作为Encoder-Decoder框架的核心,使其可以直接与深度卷积网络中提取的特征图相连。Encoder-Decoder框架利用了中文汉字的空间结构特征,同时对文本图像中在纵坐标上的形变具有更好的鲁棒性。实验结果表明,较一维递归网络,使用二维递归网络编码解码可以提高2.6%的文本识别准确率,达到最高为78.6%的识别率。较标准二维递归网络,本文的二维递归网络在性能上接近标准二维递归网络,具有计算速度快,网络模型设计简单等特点。
其他文献
《裸者与死者》是作者以战争为题材进行的创作,在小说中作者表达了对战争的厌恶,并描绘了美国军队通过战争进行的扩张行为,战争让胜利者有了更大的权力欲望,美国就是最大的战
用不同浓度NaCl溶液分别对西瓜品种“郑抗2号”、“郑抗3号”、“中科1号”和“中科6号”进行浸种处理,研究不同西瓜品种的耐盐特性并筛选耐盐品种。结果表明:不同浓度Naa溶液
<正>引言21世纪以来,人民生活质量的提高对能源的需求日益剧增。太阳能作为人类取之不尽用之不竭的能源,有着巨大的潜力。1.太阳能电池的工作原理太阳能电池又可叫做"光电池"
腹泻型肠易激综合征(D-IBS)是一种发病率较高的功能性肠道疾病,属于中医的"泄泻""腹痛"。以前本病分型差别较大,治疗意见也不统一,文章介绍的D-IBS诊疗共识意见将其分为四种
目的:比较CAG预激方案与DA方案对老年急性髓系白血病(AML)的诱导缓解疗效及毒副反应。方法:选择21例老年AML患者,在诱导缓解期分别行两种化疗方案治疗,13例行CAG预激治疗方案:粒细
目的探讨九例外阴畸形患者的正确诊断及治疗方法。方法对九例性别、外阴畸形的患者根据患者的染色体核型、临床表现、社会性别、尿道膀胱造影、性腺病理检查进行正确诊断为特
以3,3′,4,4′-二苯甲酮四羧基二酐和4,4′-二氨基二苯醚为主要原料,采用简单高效的粉末微波发泡法制备了一系列超轻质开孔柔性聚酰亚胺泡沫,克服了液相发泡法易掉渣的不足。
房屋的渗漏问题给业主的生活带来极大不便,它不仅影响房屋的外观质量、适用性和耐久性,严重的会影响结构的安全性。结合工程实际,阐述了房屋工程中各主要部位发生渗漏的原因
以水作为发泡剂,利用水在反应过程中产生的无机低分子物CO_2进行发泡,制备了一种聚酰亚胺(PI)泡沫材料。研究了不同用水量对PI泡沫结构和性能的影响规律。通过红外光谱(FTIR)对PI