基于深度神经网络的自然场景多方向文本检测与识别方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:clhhjq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文字作为信息传递的重要载体之一,包含了丰富的语义信息,图像中的文本信息能够帮助人们更好的理解场景。通常,自然场景文本图像背景复杂,同时模糊、光照不足、透视变形等情况时有发生;另外,自然场景文本自身形态多样:颜色和字体多变、长度不一、排列方向任意、语种多样等等。以上问题加大了自然场景文本检测与识别的难度。近年来,特别是深度学习时代到来之后,自然场景文本检测与识别成为计算机视觉领域的一个研究热点。针对自然场景文本检测与识别的难点问题,结合深度神经网络,本文提出基于旋转感知文本区域候选网络的自然场景文本检测方法,实现多方向、多尺度、多语言的自然场景文本检测;在检测的基础上,研究自然场景文本识别,提出基于残差递归神经网络的自然场景文本识别方法,实现多语言的自然场景文本识别。具体介绍如下:(1)受启发于Faster R-CNN,提出一个旋转感知的文本区域候选网络(Rotationaware Text Proposal Network,RTPN),用于自然场景图像中的多方向文本检测。首先,使用ResNet-101作为骨架网络,进行特征提取;然后,设计了一个角度敏感的anchor机制,用于生成多方向的候选框,检测多方向的文本区域;接着,引入多方向的ROI Align池化层,从多方向的文本候选区域和卷积层的特征图中得到固定大小的特征向量。最后,使用改进的NMS剔除冗余的候选框,得到最终的文本包围框。该方法可以同时检测多方向、多尺度、多语言的自然场景文本,具有较高的精度和效率。所提出的方法在ICDAR 2013,ICDAR 2015,MSRA-TD500和RCTW-17 4个基准数据集上的F-measure分别为0.88,0.84,0.83和0.61,实验结果验证了此方法的有效性。(2)提出一个残差递归神经网络,用于自然场景中的多语言文本识别。整个网络包括两个阶段:编码阶段和解码阶段。编码阶段首先使用ResNet网络对输入图像进行特征提取;为了提取文本的上下文信息,在ResNet特征提取之后,使用多层双向长短时记忆模型(Bidirectional Long-Short Term Memory,BLSTM)得到字符特征序列;然后,将编码得到的字符特征序列传到解码网络。为了解决传统编码-解码模型不能处理任意长度字符的问题,在解码网络中引入了注意力机制,此机制能够学习字符序列的全局信息,提高识别精度;为了避免传统RNN网络的梯度消失和梯度爆炸的发生,将传统的RNN单元改为门控循环单元(Gate Recurrent Unit,GRU);另外,使用GRU作为解码网络可减少网络参数,因此加快了训练速度。该方法可有效识别多语言的自然场景文本。使用IIIT5K,SVT,ICDAR 2013和ICDAR 2015 4个数据集测试英文文本的识别性能,识别准确率分别为0.825,0.863,0.912和0.723;使用MSRA-TD500,RCTW-17和自制数据集测试中英文混合文本的识别性能,实验结果验证了此方法的有效性。此外,将识别网络与RTPN相结合,实现了端到端的自然场景文本识别,可有效识别多语言(英文和中文)的自然场景文本。
其他文献
哈萨克斯坦地处中亚,北邻俄罗斯,东接中国,独立之前长期处在苏联高度集中的政治经济体制之下,没有独立的外交机构,也缺乏独立对外交往的能力和经验。独立之后,哈萨克斯坦百废待兴,急需建立自己的外交体系,营造良好的外部环境,为本国经济社会发展服务。随着苏联解体、两极格局瓦解,世界格局朝着多极化方向发展,全球化进程不断深入,哈萨克斯坦也因其特殊的地理位置和丰富的资源成为大国博弈的“主战场”和争夺的主要对象。
英语的全球化与本土化构成了当今复杂的世界英语语境,形成了各具文化特色的多种英语变体,中国英语在这一背景下应运而生。文章以世界英语理论和研究方法为基础,考察英语在中
葛洪是魏晋时期著名的道教徒,丹鼎道派奠基人,魏晋神仙道教开创者,是道教发展史上最杰出的代表人物之一。他创建的魏晋神仙道教,将早期民间道派转向为上层士族服务的官方道派。葛洪所著的《抱朴子内篇》涵盖有哲学、宗教、炼丹、化学、医药、养生等诸多领域内容,是一部道教集大成著作。该书主要论证神仙存在、仙道可致的魏晋修仙思想。其中葛洪对修仙方法格外关注,不仅系统整理归纳出前人的修仙方术,同时又在前人修仙理论基础
公益广告的有效传播离不开地方电视台的大力支持,本文分析了县级电视台传播公益广告现存的问题以及公益广告的传播模式,对县级电视台传播公益广告的策略进行了探讨。
自1998年以来,我国房价基本呈现上升趋势,房价持续攀升,出现越来越多中低收入人群买不起房的情况。同时,随着我国城镇化的推进,居民对城镇住房的需求量不断增加,更加导致房价
本文叙述在硫酸溶液中,用铝板置换铟包裹锌的情况,并用改变置换条件的方法提高粗铟质量,改善劳动环境。
实验目的:研究BMSCs减轻急性哮喘模型小鼠炎症反应的机制,进一步探讨BMSCs与DCs自噬以及哮喘之间的关系。实验方法:1.BMSCs通过抑制肺内树突状细胞自噬缓解哮喘模型小鼠病情
农村信息化是指全面推进信息技术在"三农"领域中应用。该文介绍了面向"三农"的基层政府信息服务模式现状、存在的问题及其原因,重点分析了农民由于缺乏及时有效的信息资源而导致
甚高频全向信标(VOR)是现代航空无线电测向的一种地面导航设备,被广泛应用于短距及中距制导。多普勒甚高频全方位信标(DVOR)是常规VOR的进一步发展。它利用多普勒效应及宽孔
随着世界性的资源枯竭、能源危机以及生态环境恶化等一系列问题的出现,生物质可再生材料及其衍生物的研究开发越来越受到人们的重视。其中聚乳酸作为一种非石油基的生物可降解高分子材料,以卓越的综合性能而备受关注,但聚乳酸易燃易滴落的缺点限制了其应用领域的拓展。二维纳米材料研究科学的进步,使其在提高聚乳酸热、力学和阻燃等性能方面受到广泛关注。其中,二硫化钼(MoS_2)作为一种新型二维纳米材料,具有独特的层状