基于深度学习的场景文字检测与识别算法研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:chen0507
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对自然场景中获取的图像进行文本检测和识别是计算机视觉领域的一个具有挑战性的课题和研究热点。与传统的光学字符识别(OCR)不同,自然图像中的文字往往具有不规则排布(如方向任意、弯曲文本、透视失真等)、复杂的背景、较大的噪声(如遮挡、分辨率低、明暗变化大等)等特点,难以检测和识别。针对场景文本的研究具有非常重要的理论意义和实用价值,这项技术被广泛应用于无人驾驶、信息安全审计等诸多方面,引起大量研究者的广泛关注。典型的场景文字检测与识别技术由两个部分组成:首先在一张图像中将文字检测出来,然后对检测出的文字进行识别。本文在文字检测算法中针对图像进行特征提取,然后采用物体检测算法将目标物体即文字检测出来。文字识别算法针对只包含文字的图像,从图片中提取特征并根据特征识别出计算机能够识别的字符序列。场景文本检测算法作为目标检测的一个分支,主要分为两大类:单阶段检测方法和二阶段检测方法。单阶段检测方法直接获得文本类别得分和位置坐标,速度快,但是准确度低。二阶段检测方法首先生成候选框然后再进行精细分类,分两步进行检测,速度慢,但是准确度高。本文所提出的场景文本检测模型主要依据二阶段检测算法中的代表Faster-RCNN,在特征提取阶段使用残差网络提取深度特征,同时结合改进的Inception网络,使提取的深度特征更适用于文本检测中长宽比较大的情况。在检测模块中,融合无锚框思想对RPN进行改进,将传统的基于区域预测的RPN结构改成基于点预测的anchor-free RPN,解决了目标检测只能检测水平物体的弊端,使模型能够应对场景文本多方向的特点。最后针对场景文本检测面临的样本不均衡问题,使用了focal loss取代传统的softmax损失函数,进一步提高模型精度。针对场景文本识别问题,本文提出了一种新的文本识别方法,该方法由文本矫正模块和字符识别模块两部分组成,对不规则文本具有较强的鲁棒性。文本校正模块使用空间转换网络对输入图像进行仿射变换,将输入图像中的不规则文本矫正为更“可读”的文本,有效地解决了文本排布方向变化对模型识别造成的影响。我们提出的字符识别模块是一种对位置更加敏感的基于注意力机制的序列学习模型。首先提取具有长期依赖的深度特征,然后使用基于注意力机制的长短期记忆网络层对字符序列进行预测输出。在损失函数选取方面,常用的Softmax-loss函数只考虑类之间的可分性,而本文中采用了新的损失函数,综合考虑分类,以及减少类内距离和增大类间距离三个问题,使模型能够学习到更多的具有判别力的特征,提高准确性。最终本文将场景文字检测和识别算法在SynthText、Synthetic Text、CDAR2003、ICDAR20013、ICDAR2015、ICDAR2017 MLT、IIIT 5K-Words、Street View Text、SVT-Perspective和CUTE80共10个通用且富有挑战性的场景文字图像数据集上进行训练和测试。实验结果表明我们提出的两种算法均能达到较好的效果,与目前最先进的算法性能相当。
其他文献
移动互联网近年来始终保持高速发展,成为人们工作生活、休闲娱乐等日常生活的重要手段、渠道和场景。互联网巨头和传统媒体纷纷发力移动互联网,以互联网思维推动传统媒体和新
<正>世界卫生组织和联合国儿童基金会发起的"婴幼儿喂养全球战略"中明确提出了婴儿应保证6个月内进行纯母乳喂养[1]。《中国儿童发展纲要(2011-2020)》也明确提出"0~6个月婴
胶质母细胞瘤(glioblastoma,GBM)是中枢神经系统最具侵袭性的恶性肿瘤,预后极差,平均生存时间只有14个月。目前临床的一线治疗方案是手术最大限度切除肿瘤后联合放疗和(或)替
子宫内膜癌(endometrioid endometrial carcinoma,EEC)是女性生殖系统常见的三大恶性肿瘤之一,是发生于子宫内膜的一种上皮来源的恶性肿瘤,近年来其发病率呈逐年上升。根据临
聚氯乙烯(PVC)和聚偏氟乙烯(PVDF)是目前应用最广泛的两种聚合物多孔膜,但是由于其本身的疏水性使其存在通量低及易污染等缺点,科研工作者们利用各种方法对聚合物多孔膜进行
随着全球经济从金融危机的打击中逐渐复苏,公众对企业的关注重点重新从单一的企业的经济业绩向企业对社会做出的整体贡献转移,将之具体化,就是企业履行社会责任的表现。改革
随着深度学习技术的爆发,计算机视觉研究已经发生了极大的变化。作为计算机视觉研究领域的一个重要分支,文字检测和识别同样受到了这一波技术革新浪潮的影响。近年来,该研究
研究背景:肾上腺髓质素(adrenomedullin,AM)属于降钙素基因相关肽(CGRP)家族,是已被证实的参与疼痛形成的神经肽。脊髓背角浅层和DRG(伤害性信息传递的重要部位)中AM和AM受体都有表达。其他实验室和本实验室研究表明,鞘内注射AM能够引起热痛觉过敏和机械性超敏反应,提示AM参与了伤害性信息的传递及痛觉过敏的形成。本研究应用完全弗氏佐剂(CFA)模型,通过鞘内注射AM受体拮抗剂AM
目的:检测脂肪肝患者血清瘦素(LEP)水平,探讨瘦素与暗肪肝患者的血脂、血尿酸及血清铁蛋白(FePr)之间的关系。方法:2002年6月至2004年8月我院62例脂肪肝患者及30例正常对照组患者血
基于场景图像的自动文字检测是光学字符识别系统的第一步,是光学字符识别系统可以应用于各行各业的重要保证。自然场景文字检测技术已经成为计算机视觉和模式识别领域的研究热点,在日常生活和工作中如场景理解、产品检索、自动驾驶、地图制作、图像视频监控和文档检索系统等领域都有着广泛的应用,给人们的生活和工作提供了极大的便利。此外,随着大数据的爆发和计算机计算能力的提高,深度学习得到了快速的发展,并从学术研究领域