自然场景下端对端文本识别研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:arenlin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本识别及其相关问题一直都是计算机视觉领域的热点与难点,其技术已普遍应用于语言翻译、辅助驾驶、地理定位、图像检索等诸多方面,早在几十年前科研工作者们就开始了相关研究。虽然针对文档图像的识别技术已经日渐成熟,但在场景图像上仍然面临着巨大的挑战。多变的表现形式使得场景文本在字体、尺寸、形状、颜色、排版等存在着各式各样的组合,而复杂的背景环境和不受限的成像条件又给文本识别带来了更大的困难。本文就场景图像中的文本检测、识别及其相关问题展开全面和深入的研究,重点关注于简洁、高效的思路或方法。旨在通过这些工作能对研究现状中存在的不足提出新的解决方案,并对其在相关场景下进行验证和部署,以展现其良好的通用性和实用性。本文的研究工作主要分为以下几点:(1)为减少对锚框设计的依赖,本文提出了一种简单、高效的实时文本检测网络,它在每个检测位置仅需设定一个基本的参考框。该网络的特点在于将学习机制引入到单阶段检测框架中,将经回归优化后的学习锚框代替初始锚框进入到最终预测中。该网络模型在多个公开测试集中均取得了优秀的检测精度,并且在检测速度上超越了同期所有基于锚框的检测方法。(2)本文提出了一种不依赖于任何先验知识的两阶段多方向文本检测网络。它创新性的利用定位和链接文本框的四个角点来生成候选,代替滑动锚框扫描全图的方式去估计文本可能存在的位置及形状。利用角点生成的四边形候选框是几何自适应的,这使得该检测模型对于文本的尺度、形状相对不敏感。此外,我们提出了一种名为Dual-Ro I Pooling的池化层,它是一种内置于网络的数据增强模块,能更加有效的利用训练数据从而稳定提高检测鲁棒性。在多个公开数据集上的测试结果证明了我们方法的有效性,同时在检测效率方面也非常具有竞争力。(3)我们分析认为影响不规则文本图像识别精度的主要原因在于背景在图像中占比较重,而标准卷积其固定的感受野及采样点会引入较多冗余的无关信息。本文利用可变形卷积层几何结构可调的特性,提出了一种无需额外附加操作的聚焦增强识别网络。通过端对端的训练使卷积核能学习调整其采样位置,从而提取到更具表征力的相关卷积特征。在多个公开数据集上的测试结果证明了该网络相对于基准模型的提升,并且获得了当时较优的识别精度。(4)现有基于深度学习的文本识别网络需要大量的标注数据进行模型训练,而现有的文本序列图像合成方法通常需要一系列较为复杂的处理流程。本文提出将序列图像的生成看作为一种图像到图像转换,利用生成对抗网络将简单的字符序列语义图转换为逼真的场景文本图像,整个过程仅需两步即可完成。多项生成图像的评价标准和实际的文本识别精度证明了该方法的有效性。(5)结合我们之前的工作,本文提出了一套完整且通用的端对端文本识别网络。它将多个相关任务进行整合,仅需一次前向传播即可同时完成文本检测与识别。多个分支网络共享卷积特征,通过多任务训练的方式让网络能提取到更具针对性的卷积特征。基于轻量化的骨架网络和简洁的分支架构,使得网络在精确识别的同时保持了完全实时的处理速度。此外,我们将之应用于车牌识别中,在不改变大部分网络参数的情况下展示了优秀的识别精度,证明了其良好的通用性。最后,本文所有已发表的工作都已将相关代码和数据进行了开源,具体请详见各大章节。
其他文献
与微滤工艺的出水水质相近的动态膜技术,具有投资小、膜污染容易控制、能耗低等优点。以不锈钢丝网为基网、硅藻土为预涂材料制备动态膜,并采用错流操作方式进行过滤。试验结
“情境”实质是人为优化的环境,是促使儿童能动地活动于其中的环境。混龄互动作为一种特殊的学习情境,创设了一个宽松、自由的学习与交往的情境,幼儿的交往空间得到拓展,主动
时代不断发展,单纯的开口朗读显然已不能满足人们对学习的要求。于是,人们借用新科技新手段开发多种多样的朗读活动,通过活动对学生进行朗读指导,让学生的朗读更加多元,成为
在人的发展过程中,幼儿期是关键时期,性的发展也不例外,近年来幼儿性侵案件频发,家庭性及幼儿园性教育的缺失导致部分受害儿童甚至不知道发生了什么,留给孩子的只有内心的黑洞、终身的阴影,因此对幼儿及早进行性教育,预防幼儿性侵害,提高幼儿进行自我保护刻不容缓,幼儿性教育的开展也有助于幼儿及早地获得正确的性知识,树立正确的性观念,有利于幼儿今后建立健康的性价值观。绘本是图文并茂的幼儿文学样式,兼具直观性和形
党的十九大后,全国上下已经掀起学习贯彻习近平新时代中国特色社会主义思想的热潮,少数民族地区亦如此。如何加快新思想理论的学习传播,使新理论在各少数民族地区落地生根已成为紧要的时代课题。其中,侗族是一个民族文化浓郁且较特殊的一个南方少数民族,拥有较好的软传播环境和条件。实现党的最新理论在侗族地区的大众化,应借助特色侗民族文化进行思想传播“软建构”。开展软传播就是坚持受众为本位,以侗族文化及各类网络新媒
近几年,我国邮政放缓了人物诞生纪念邮票的发行速度,自2014年8月22日发行2014-17《邓小平同志诞生一百一十周年》邮票后的6年多时间里,此类邮票仅仅发行了3套,依次为2016-32
强夯是一种具有节能环保优点的地基处理方法,随着强夯法在城镇地基处理施工中的推行,强夯施工所面临的振动与填料问题也在放大。寻求新型经济合理的强夯施工隔振方式,以及探
“绿水青山就是金山银山”理念是习近平生态文明思想的重要组成部分,具有深刻的哲学内涵,本文利用代表“绿水青山”和“金山银山”的生态与经济指标聚类分析了中国1666个县(
非物质文化遗产保护是新时代博物馆功能的重要体现,博物馆通过其收藏、保存、研究、展示、教育和传播等技术,深入探寻非遗事项的社会功能、文化内涵以及传承、创新与应用,以
海德姆和斯诺一起奔赴陕北1933年11月,23岁的乔治·海德姆来到上海,那时他刚刚从瑞士日内瓦医学院毕业并取得博士学位。作为一个美籍黎巴嫩人,海德姆1910年出生于有“水牛城