基于深度学习的场景图像文字检测方法研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:yuxuan423
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然场景图像中,文字是最常见的物体对象,它经常出现在交通指示牌、产品包装等物体上。有效检测场景图像中的文字有助于许多应用程序实现特定的功能,例如基于图像的地理定位系统可以通过检测并识别场景图像文字来实现定位功能。随着深度学习的飞速发展,越来越多的基于深度学习的物体检测算法模型被用来进行场景图像的文字检测。但是,由于场景图像中的文字对象与通用物体对象不同,文字对象不仅具有尺度丰富、方向任意和宽高比极端等特性,而且容易受到类似文字背景地干扰。针对自然场景图像中文字的分布特性,本文对自然场景图像中的文字检测方法进行研究。主要工作如下:(1)设计了一种基于SSD物体检测算法改进的自然场景文字检测模型,该模型在SSD物体检测算法的基础上增加了一个文字区域检测模块。该模块可以根据前面不同尺度的特征提取层检测到的特征图感受野的不同,调整默认预选框的宽高比、卷积滤波器的形状以及默认预测框的空间密度。该模块可以高效地融合各特征图上的文字检测结果,从而增强不同尺度文字检测的鲁棒性。(2)本文设计的场景图像文字检测模型针对SSD物体检测算法只能生成水平矩形的物体区域边界检测框,而导致对多方向的文字检测效果差的问题,在SSD算法的基础上引入了一种可以生成任意方向文字区域边界框的计算策略。从而使本文提出的文字检测模型可以检测任意方向的文字。(3)设计了一种端到端的场景图像文字检测与识别模型,该模型在上文场景图像文字检测模型的基础上加入了文字识别分支模块和由空间变换网络组成的双线性插值采样模块。除此之外,还引入了共享卷积特征的思想,从而使模型可以进行端到端地训练。该模型不但能够同时完成文字检测与文字识别任务,而且可以充分发挥两者高度相关又互补的关系并进一步提升自然场景图像文字检测与识别任务的准确率。
其他文献
脑-机接口(Brain-Computer Interface,BCI)无需依靠脊髓和外围神经肌肉组织的帮助,即可实现大脑对外部设备的直接控制。BCI技术的发展给许多领域带来了改变,在医疗康复、文本
电子光谱是研究分子电子结构最重要的技术手段之一,并且常被用于在物理、化学、材料和生物等领域有着重要应用的功能分子的研究。与此同时,随着量子化学理论方法的不断发展和
我国是渔业大国,也是渔船大国,渔船数量和规模均居世界第一。渔业船舶是渔业生产的重要载体,也是渔民和渔业生产经营者重要的生产生活资料,随着社会进步和科学技术发展,渔业
蝙蝠作为自然界中的“活雷达”,能够在黑暗和复杂环境中利用自己奇妙的声呐系统对目标进行精准定位,且在精度、灵敏度等方面远胜于当前人工声呐。大量研究表明,蝙蝠耳朵的形
研究了分次环上的Ding分次投射(内射)模,Ding分次平坦模以及强Ding分次投射(内射)模.它们作为Gorenstein分次模类的推广,有很多重要的性质.首先,我们给出了Ding分次投射模和Ding分次内射模的等价刻画.证明了任意分次环上的Ding分次投射(内射)模类是投射(内射)可解的.进一步研究了环变换下的Ding分次投射模和Ding分次内射模的维数.其次,我们引入了Ding分次平坦模,研
本文考虑如下带有时滞的三种群竞争-合作非局部扩散系统其中,(Ji+ud)(z,t)=∫RJj(x-y)ui(g,t)dy(i=1,2,3),Jj表示种群i的扩散核函数,ui(x,t)表示种群i的种群密度.参数di,ri>0
当前,由于自然保护区的建立,我国自然保护区及周边社区的资源利用受到限制,发展也受到很大制约,保护区管理部门与社区的关系相对紧张,所以,急需寻找一种能够协调自然保护区与
本文主要探讨《礼记》中所蕴含的生态思想,从观念层面和行为层面探讨《礼记》中人与自然的关系,其中观念层面从本体论和价值观两方面进行探讨,即《礼记》的生态整体观、生态
小学阶段作为义务教育的基础阶段,是学生思维发展的重要时期,小学生逐渐由具体的形象思维发展到抽象思维,所以数学思想方法在小学数学教学中的渗透不仅可以起到启蒙的作用,可
近年来,随着人工智能技术的发展,移动机器人与智能技术深度融合给传统行业带来了巨大变革,如利用路径自主规划的物流机器人对货物进行分拣,转运,利用自主导航无人车对城市进