基于深度学习的自然场景图像中文字检测的研究和应用

来源 :华南理工大学 | 被引量 : 1次 | 上传用户:cjl7648893
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然场景图像中的文字具有丰富且精确的高层语义信息,是感知和理解图像内容的重要视觉元素。许多应用场景,如信息检索、实时翻译、自动驾驶、自动阅读、机器人流程自动化等,都需要利用到场景文字信息。因此,场景文字检测近年来受到了计算机视觉领域和文档分析与识别领域的广泛关注。但是,由于场景文字对象本身在尺度、形状、方向、语言、颜色、字体、排版和对齐等方面的多样性,场景图像背景的复杂性和某些背景区域纹理与文字的相似性,以及图像拍摄过程中引入的一些干扰因素,如不规则几何形变、模糊、非均匀光照、强曝光、遮挡等,场景文字检测依然是一个很有挑战性的研究课题。传统的基于滑动窗口或连通区域和手工设计特征的场景文字检测方法在真实场景下无法取得令人满意的性能。而且传统方法通常包含多个算法模块,每个模块分步地处理,整个文字检测流程复杂程度高。近年来,深度学习技术发展迅猛,展现出了极其强大的特征学习能力和可端到端优化的优秀特性,在计算机视觉、语音识别、自然语音处理等领域取得了突破性进展。本文基于深度学习算法,对场景文字检测问题开展了一系列研究工作:(1)提出一种端到端可训练的场景文字检测方法。之前(2016年以前)的场景文字检测方法都包含多个算法模块,每个模块分步操作,不能统一优化,文字检测流程复杂,容易造成误差累计。为了解决这个问题,本文受到通用物体检测框架Faster R-CNN的启发,首次提出一种端到端可训练的场景文字检测方法。该方法首先利用基于Inception多尺度卷积模块的文字候选区域生成网络,结合根据文字特性设计的矩形锚点框来生成高质量的文字候选区域。然后再利用文字校准网络,对每一个文字候选区域进行进一步地文字概率预测和边界框校准。在文字校准网络中,采用多层次的感兴趣区域池化算法为每个文字候选区域提取更丰富的特征表达,引入歧义性文字类别学习帮助网络学习更具鉴别性的特征来区分文字和背景区域。两个网络共享卷积神经网络特征,可以端到端学习优化,有效克服了之前方法的缺陷。该方法在ICDAR-2011和ICDAR-2013数据集上取得了超过同时期其他方法的检测性能。(2)提出一种高文字定位精度的场景文字检测方法。与其他的物体检测任务相比,文字检测任务对预测出来的边界框精准度要求更高,否则不仅会影响文字检测任务的性能,也会直接影响后端文字识别任务的结果。本文对场景文字检测中文字定位精度问题进行研究,发现原始的边界框回归模块对文字边界框预测并不够精准。本文从一个新的角度出发,将边界框定位问题从回归问题定义为更为简单的细粒度的二分类问题,提出用Loc Net定位模块替代边界框回归模块。实验表明,与边界框回归模块相比,Loc Net定位模块可以预测出更为精准的文字边界框,从而显著提高文字检测算法的性能。另外,对小尺度文字检测不鲁棒和容易对纹理像文字的背景区域误检的两个场景文字检测难点问题,本文也提出可行性技术解决方案。本文还提出一个简单有效的级联的多方向场景文字检测算法,巧妙地将多方向文字检测问题转化为水平方向文字检测问题。在多个公开的水平方向和多方向场景文字检测数据集上,本文方法都取得了优越的检测性能。(3)提出一种新颖的不基于锚点框机制的候选区域生成网络,并把它应用到多方向和任意形状的场景文字检测任务。现有的大部分基于深度学习的自上而下的文字检测方法都基于锚点框机制,都需要人工设计各种尺度、长宽比和倾斜角度的锚点框来生成文字候选区域或检测出文字实例,这给这一类方法带来了一定程度的复杂性和不灵活性。为了解决这个问题,本文提出一种不基于锚点框机制的候选区域生成网络,通过对落在文字中心区域的滑动点直接预测其对应的文字实例的边界框位置坐标,从而能以不基于锚点框的方式生成高质量的文字候选区域。另外,本文还提出一种尺度友好性学习方式,显著提升网络对各种尺度文字检测的鲁棒性。实验表明,与其他基于锚点框机制的候选区域生成网络相比,本文方法不仅更加简单灵活,而且有着更优越的文字候选区域提取性能。本文将不基于锚点框机制的候选区域生成网络嵌入到Faster R-CNN和Mask R-CNN框架中,在多个公开的水平方向、多方向和任意形状场景文字检测数据集上,都取得了很好的检测结果。目前,不依赖于锚点框的检测思想在物体检测领域也非常流行,这也进一步地证明了本文方法的通用性。
其他文献
我国是一个海陆兼备的发展大国,提高海洋资源开发能力、发展海洋经济、建设海洋强国已被我国提升到前所未有的战略高度。随着海洋资源的不断开发利用,越来越多的结构设备等都会在海洋大气环境下服役,加上我国的海岸线较长,海岸工程、跨海桥梁等建设的数量迅速增长,耐候钢也被越来越广泛的应用于铁道车辆、桥梁、塔架、集装箱中。现阶段人们对耐候钢在工业大气环境下的腐蚀规律、耐蚀性已经有了较多的研究,但对于其在海洋大气环
随着电力电子、自动化控制等技术的飞速发展,以电力推进为核心的综合舰船电力系统成为当今舰船电力系统的发展趋势。综合电力系统实现对舰船电网能量统一管理,有助于提高舰船战斗力和生命力,其中,低压电网部分主要由逆变器将中压直流电网逆变而成,为舰船上低压设备提供电能。为保障低压供电的稳定,需要对舰用三相逆变器的控制及其并联技术进行研究。本文以三相全桥逆变器为研究对象,对其输出电压电流建立了旋转坐标系模型,在
目的:对榆树皮的正丁醇层的化学成分进行研究,并考察其抗炎活性。方法:利用正相硅胶柱层析、反相硅胶柱层析、葡聚糖凝胶柱层析,重结晶等技术对榆树皮的正丁醇萃取层的化学成分进行分离与纯化。利用核磁共振、紫外、红外,质谱以及旋光度的测定等方法,对其化学结构进行鉴定。通过Griess和ELISA方法测定了榆树皮正丁醇萃取层所分离的单体化合物对LPS刺激RAW 264.7产生的一氧化氮(NO),白细胞介素6(
我国目前正处于产能过剩的社会背景下,如何处置僵尸企业成为这一阶段需要重点解决的问题之一。在解决现存产能过剩问题的同时防范新的产能过剩,对保障国内经济健康发展具有重要的作用。因此,探究如何降低僵尸企业的僵尸化程度的同时防范新的僵尸企业形成成为这一社会背景下必要且有意义的问题。伴随我国经济的快速发展,客户对产品的需求已发生重大变化,低端产品正逐步退出市场,研发能力弱的企业产品更新能力不足,逐步被市场淘
随着社会不断进步,人们生活水平的逐渐提高,废弃食品的回收处理问题越来越受到人们的关注。废弃食品的回收处理不当,不仅会对人们的身体健康造成损害,还会污染环境,造成资源的浪费。但是目前对于废弃食品的非正规回收问题关注度有待提升。这就造成了废弃食品的非正规回收现象的加剧,废弃食品肆意流通市场。当前我国废弃食品非正规回收现象严重,相关法律法规不健全,监管主体的监管责任划分不明,绝大多数非正规回收商以利益最
鼠伤寒沙门氏菌(Salmonella Typhimurium)是最常见的食源性致病菌之一,它可以同时感染人类和动物从而导致自限性肠胃炎。抗性淀粉(Resistant starch,RS)与膳食纤维具有很相似
在水环境中由重金属富集引起的潜在危害不止对环境,也会对人体健康产生威胁,其中溶解性有机质(DOM)是影响重金属在天然水环境中生物有效性和毒性的重要因素。DOM与金属离子的相互作用有吸附作用、络合作用以及氧化还原作用,这些相互作用会影响重金属污染物在水环境系统中的毒性、生物可降解性及迁移转化规律。因此,对DOM的性质及其与重金属之间的相互作用关系进行研究讨论,有助于掌握重金属对水体污染的影响以及后续
习近平总书记在中共十九大开幕讲话中进一步强调健康中国战略。人民健康是民族昌盛和国家富强的重要标志。要完善国民健康政策,为人民群众提供全方位全周期健康服务。而上海市作为我国第一大流动人口主要集聚区,流动人口约占总人口的40%,但是流动人口健康服务问题突出,存在供需不匹配、服务不够便捷、可及性亟待提高等问题。“健康上海2030”规划纲要也强调要立足于全人群和全生命周期,推进健康领域基本公共服务均等化,
在威代尔冰酒的自然发酵过程中取样,通过WL(Wallerstein Laboratory)营养琼脂培养基与分子测序(ITS1-5.8S-ITS2及26S r DNA D1/D2区域),筛选出Starmerella bacillaris酵母菌株。
实验以淀粉配制废水、葡萄糖配制废水为降解基质,通过对序批式活性污泥法(SBR)降解废水过程中二氧化碳(CO2)浓度原位测定曲线的分析,建立了基于CO2浓度原位测定的异养菌产率系数(Y