基于深度学习的自然场景文本检测算法研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:easyJMS
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度卷积神经网络的兴起,自然场景中的文本检测得到了广泛关注。场景文本检测具有很大的应用价值,比如广告过滤,场景理解,文档分析以及机器人导航等等。但是,因为尺寸、长宽比和方向的巨大变化以及图像扭曲、极端的照明情况和遮挡问题,场景文本检测仍然面临着巨大的挑战。本文的主要工作和创新如下:
  1.本文研究了基于语义分割的文本检测算法EAST,并提出了一种含有空洞卷积的场景文本检测算法AC-EAST。AC-EAST算法针对EAST模型中因为连续使用池化而导致特征图上下文信息缺失的问题,在特征提取网络中引入空洞卷积,使得网络能够在控制特征图尺寸的同时有效扩大感受野。另外,本文还在AC-EAST网络的顶层加入空洞空间金字塔池化结构,使得网络能够更好地提取多尺度特征。实验结果表明,本文提出的AC-EAST模型的文本检测性能明显优于现有的先进算法,在ICDAR 2015测试集上取得了0.826的F-score。
  2.本文研究了基于目标检测的文本检测算法TextBoxes++,并提出了一种基于Inception结构输出层的文本检测算法ITPN。ITPN算法在TextBoxes++的基础上改进了先验框生成机制,加入了小尺度的方形先验框和长先验框。同时引入Inception输出层,对不同分类的先验框采用不同尺寸的卷积核进行卷积运算。实验结果表明本文提出的ITPN算法提升了对于小尺度文本和大长宽比文本行的检测精度,并且因为多种类先验框的设定使得模型具有很高的召回率。ITPN在ICDAR 2015测试集上的召回率达到了0.838,明显优于现有的先进算法。
  3. 本文提出了一种将语义分割与目标检测相结合的场景文本检测算法BLSTD,该算法运用注意力机制和融合非极大值抑制算法将AC-EAST与ITPN相结合,使得AC-EAST主要检测常规尺度的文本,ITPN主要检测小尺寸和大长宽比的文本,让两个算法充分发挥各自的检测优势。实验结果表明,BLSTD算法兼具AC-EAST算法的高精确率和ITPN的高召回率,在MSRA-TD500数据集上召回率、精确率和F-score分别达到了0.748,0.862和0.801。相较于其他文本行检测算法,BLSTD的后处理仅包含一个非极大值抑制计算,大大缩短了检测时间,在检测速度上极具优势。本文还将BLSTD算法应用于实际的营业执照文本检测场景中,设计了一套完整的营业执照文本检测系统。测试结果表明,本文搭建的系统对于营业执照文本检测有很高的精度,且泛化性能良好,对证件、票据也具有良好的检测效果。
其他文献
随着多媒体技术的迅速发展,包括图像、视频在内的视觉数据迅速增加,而这些海量的数据往往蕴含着大量有价值的信息,通过计算机视觉技术来分析这些信息可以让人类的生活更加便捷和安全。目标跟踪是计算机视觉领域中的经典任务之一,它旨在从任意一段视频中的一帧中指定一个物体,在后续的连续帧中推导出其位置。目标跟踪对于自动驾驶、安防系统等领域有着重大的应用价值。本文基于深度学习中的孪生网络对目标跟踪进行了深入研究,使
学位
近年来,随着人工智能的不断发展,自动驾驶作为其重要落地项目也取得了巨大的进展。目前,自动驾驶主要由环境感知、行为决策与车辆通信三个方面组成。本文针对环境感知中的视觉辅助提出基于深度学习的实时语义分割算法,对行驶前进方向的街景图像做出实时语义分析;针对自动驾驶中的行为决策,提出使用深度强化学习的方法进行优化;针对车辆通信中提高车辆与路边单元通信效率方面,提出基于深度强化学习的方法,在车辆自动驾驶的情
学位
随着物联网等技术的兴起,无线通信技术作为推动社会经济发展的关键因素,需要满足越来越高的需求。相较于第四代移动通信技术,第五代移动通信技术以及未来通信需要满足超高吞吐量、高数据传输速率、超高带宽、超低时延以及高可靠性等要求。然而目前6GHz以下频段的通信技术已经基本达到极限,且无法满足“超高容量、巨连接、广应用”的发展需求。为了挖掘更多的频谱资源,实现高带宽、高性能通信,毫米波技术受到业界的广泛关注
学位
随着人类步入信息时代,信息安全获得了越来越多的关注,因此研究安全高效的生物识别技术具有重要意义。指静脉识别凭借其内部特征、活体识别、安全性高等优异性能而成为生物识别领域的研究热点。本文从传统方法和深度学习两个方面对指静脉识别进行研究,对图像预处理、特征提取以及识别匹配的全过程进行了详细探讨。本文的主要研究内容如下:  第一,概述了常见生物特征识别技术的特点,分析了指静脉识别的优势;阐述了指静脉图像
学位
近年来,随着深度学习和图像处理技术的飞速发展,目标检测成为了计算机视觉领域中研究的热点之一。目标检测的任务是检测出图像中感兴趣的目标,确定目标的所属类别和位置大小。由于视觉图像中多样的目标外观、尺寸、姿态,不同的拍摄角度、光照条件等问题,依赖于手工特征的传统目标检测算法一直有很大局限性。而随着深度学习理论的不断发展,算法和网络结构的不断创新,深度学习在各类目标检测公开数据集中取得了优异的成绩,为很
学位
基于视觉的即时定位与地图构建(Simultaneous Localization and Mapping,SLAM)技术,作为实现全自主移动机器人的关键技术之一,引起了自动驾驶、增强现实等新兴领域学者的广泛关注。结合语义分割与视觉SLAM ,开发基于深度学习的语义SLAM技术成为突破传统视觉SLAM算法瓶颈的重要方向。针对环境感知与实时性需求,文章提出了基于深度学习的语义SLAM系统方案,利用深度
学位
实正弦信号频率估计不仅是现代数字信号处理领域重要的研究课题,而且在军用和民用雷达系统、通信系统、生物医学等领域都有着广泛的应用,因而高斯白噪声背景下实正弦信号频率估计问题的研究有着重要的理论意义与应用价值。并且,离散傅里叶变换(DFT)因物理意义直观明确和计算量小等优点,逐渐成为重要研究方向之一。本文对插值DFT(IpDFT)和智能DFT(SDFT)相关算法进行研究,发现实正弦信号DFT存在栅栏效
学位
毫米波大规模多输入多输出(Multiple-input Multiple-output, MIMO)通信是未来无线通信的关键技术之一。大规模 MIMO 系统利用波束成形技术不仅可以弥补毫米波信号传输的路径损耗又可以充分挖掘空间自由度。本文针对毫米波大规模 MIMO 中的波束训练和波束跟踪开展研究工作,具体如下。  研究了基于码本的波束训练技术,提出了一种利用辅助计算设计的自适应码本并基于该码本提出
随着大数据时代与互联网时代的发展,多媒体数据在人们生活中扮演着重要的角色,极大地便利人们的生活。然而在数据的传输与处理的过程中,信息安全问题显得尤为重要。尤其是随着云计算技术的普及与应用,云端存储的海量数据的安全保护问题更为严峻。如何保障信息传递过程的安全性、信息内容的完整性,成为学者们广泛研究的方向。图像加密域可逆信息隐藏技术结合了图像加密技术与可逆信息隐藏技术,在图像传递过程中对图像内容进行加
学位
近些年随着汽车的普及,道路交通安全日益成为人们普遍关注的焦点问题。科学技术的发展带动了汽车核心技术的革新,其中提供辅助驾驶功能的毫米波车载防撞雷达因其体积小、功耗低、精度高、抗干扰能力强等优势,成为目前车载传感器的主流方案。本文将以毫米波车载防撞雷达为研究对象,对现阶段毫米波雷达信号处理中的关键技术展开研究,并针对目标检测与参数估计中存在的问题提出具体有效的改进算法,最终形成一套完整的、可行的毫米
学位