基于深度学习和样本扩充的场景文本检测研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:jhl1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息的传播广泛而迅速,图像也更多地出现在信息交互中。图像中蕴含的文本信息具有不可忽视的研究价值,通过对图像中包含的文本信息进行检测提取,可以帮助图像依据其文本内容进行分类。随着人工智能技术的发展,场景文本检测因其背景复杂和更贴近实际生活应用,逐渐成为机器视觉领域的研究热点。本文使用的是基于深度学习的场景文本检测算法,传统的场景文本检测算法如MSER、SWT容易受到光照不均匀、图像噪声、背景复杂等方面的影响,并且在生成字符候选和剔除字符候选时,容易产生误差累积的问题。基于深度学习的场景文本检测算法把上述步骤合并为一步,可以有效的避免误差累积的问题。本文主要工作包括:首先,大多数场景文本检测算法都是在上万张训练图像上进行,需要大量的场景图像,对于没有标注的场景图像更是需要进行手工标注,数据准备过程工作量很大。本文提出一种基于场景图像的样本扩充方法,来模拟出不同空间角度、空间位置等条件下拍摄出的场景文字图片,产生合成的多张场景图像。样本扩充算法使用ICDAR2013数据集的229张训练集图像作为基础,通过颜色空间变化、文本区域变换、背景区域变换来合成新的场景文字图像。然后,分析物体检测SSD方法,SSD方法使用不同层次的特征映射来进行联合预测,将检测流程整合成单一步骤,提高了检测精确度。本文基于SSD物体检测方法,提出了一种基于SSD的文本检测模型,SSD文本检测模型在ICDAR2013数据集达到了良好的效果。最后,基于场景图像样本扩充方法和SSD文本检测方法,提出了一种基于样本扩充的SSD文本检测方法。结合弱监督学习的思想,合成场景图像只将一部分进行完整的标注,将这部分完整标注数据与原始完全标注的小样本数据集结合构成初始训练集,利用SSD文本检测器在粗粒度标注和未标注合成图中,选取适用于训练的正类数据样本加入到训练集中,进行补充训练以改善文本检测效果。实验结果表明在小样本训练集上通过样本扩充能够改善文本检测效果,与使用大规模训练集的文本检测算法相比,在召回率和F值方面也有了一定程度上的提升。
其他文献
21世纪是互联网事业快速发展的时代,各种各样的网页充斥着网络,人们愈加无法快速的找寻到满足自己目标的网页,信息检索的效率越来越低。网页分类系统能根据网页的内容和信息
随着电子电路集成化程度逐步提高,其占有面积也相应缩小,基于嵌入式(比如ARM)平台的系统处理速度也日益提升,这些都为便携式的图像处理设备的发展提供了契机。目前多数研究领域对外界环境的采集还是以单一摄像头为主,但单一摄像头的视角受限(一般为80°左右),因而无可避免会存在一定视角盲点。当目标在视角盲点区域出现时,对图像的判断将对产生很大误差。针对该问题,本论文开展了软件和硬件方面相关研究,设计开发了
随着智能可穿戴设备和植入式医疗的兴起,超低功耗电路的需求日益突出。而降低电路功耗的一种重要且有效的手段就是降低工作电压。但更低的工作电压带来了更低的噪声容限,电路
雷达成像正在逐渐成为雷达技术发展的主要趋势。传统雷达系统采用宽带信号来提高距离向精度,随着信号带宽增大,无线电频谱资源日益紧张,为雷达系统的设计带来了极大挑战。论
面对频谱资源的日益稀缺,未来移动通信要求最大限度地利用频谱资源。近年来出现的在时频域将信号进行压缩重叠的非正交传输技术,与传统正交传输技术相比有着更高的系统容量和
随着互联网时代的高速发展,智能手机已经成为人们生活中不可或缺的组成部分,被广泛应用于社交,电子商务,商业以及娱乐等各个领域。与传统通讯工具仅支持电话短信等通讯功能不同的是,智能手机上安装的应用程序赋予其更多的功能,再加上互联网的介入,使得智能手机真正成为了功能丰富的智能终端。与此同时,安装在智能手机上的各种社交类应用包含了用户的私人信息,而支付宝,微信等可支付类软件还涉及到用户财产信息,因此,智能
应急通信作为保障人们应对紧急事件的特殊通信机制,往往面临着通信地域、规模和设备损毁程度不确定等问题。移动自组织网络作为一种分布式网络,具备组网快、抗毁性强等优点,
阵列信号处理是现代信号处理的一个重要分支,它是对传感器阵列接收到的信号进行处理,并提取有用信号特征的一种信号处理技术。其中,信源参数估计问题是阵列信号处理研究中的
在即将到来的5G通信中,随着智能终端的普及和移动宽带业务的丰富,网络流量不断递增。为了满足移动数据业务的快速发展,需要将部署很多低功率无线接入与回传一体化小基站作为
当下个人学习方式因移动互联网的发展发生深刻变革,智能手机APP已成为自主学习的重要媒介。众多英语词汇APP当中,一部分被推广使用,而另一部分却被遗忘在角落。这与使用者对其第一感知有直接关系,即所谓“感觉既是真理”。而这种使用者对APP的感知,在罗杰斯的“创新扩散理论”中则认为是由APP的创新属性所决定的。因此,有必要从学习APP本身的创新属性出发研究其扩散行为,从而推演到其他学习型APP的设计和扩
学位