基于YOLO-v3网络的自然场景文本检测识别系统

来源 :中国计量大学 | 被引量 : 0次 | 上传用户:www123123123123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文对深度学习在自然场景文本检测识别中的应用进行了深入研究,分别就训练样本、文字检测、字符识别三个关键问题进行了探索,并有针对性的提供了解决方案,提出了一种基于YOLO-v3神经网络的自然场景文本识别系统。主要做了三个方面的工作:(1)针对深度学习网络训练样本数量不足的问题,制作了一个文本生成器用来生成海量的文本图像。本文首先总结了自然场景的文本特征,设计了一个能模拟生成自然场景文本图像的功能模块,从而自动生成系统的训练样本,解决了训练样本欠缺的难题。(2)针对自然文本图像检测的字符多变,对YOLO-v3神经网络在检测过程中重新确定anchor个数和宽高比率,对自然场景下的字符候选框进行聚类分析;在网络结构上去除了YOLO-v3原有一个feature Map为52*52的detection,通过去除该detection可以在保证精度的条件下有效加快YOLO-v3模型处理图像的速度。在训练过程中,自适应调整图像大小,通过不同大小图像的训练提高模型检测的泛化能力。(3)针对中国汉字的识别与手写数字识别的不同,本文对传统的LeNet-5进行了改进。基于LeNet-5,修改图片大小由原有的28*28变为64*64,符合自然场景下汉字的普遍大小。因为本文研究的汉字的种类有3755,为了应对这种多分类任务,让网络获取足够多的个性特征,本文基于LeNet-5的7层结构扩展到11层结构。这些卷积层与LeNet-5中卷积层的区别在于经过卷积只改变滤波器数量,不改变图像大小,通过这些卷积层,可以在原有的模型中扩充其特征的学习,以保证该模型能学习到更多的信息,保证最后的汉字分类的准确性。虽然论文在自然场景文字识别中就样本生成、文本检测、字符识别三个方面做了一些工作,提高了自然场景中的文字检测识别性能,解决了一些问题,但由于自然场景的变化多样性、复杂性,该系统仍然有很大的提升空间,仍然需要大量的研究和探索,技术是不断发展进步的,相信不久的将来自然场景的文字检测识别系统一定能得到更好的实际应用。
其他文献
21世纪以来,人民币在岸市场逐渐走向市场化,离岸市场也发展得较完善。随着一系列人民币国际化的政策,两个市场之间的联系更紧密了。在市场运作过程中,市场的价格发现功能反映
由于氧化石墨烯(Graphene oxide,GO)在制作的时候引入了非常多的含氧基团,如羟基、羧基、羰基等,从而使得GO在水和乙醇溶液中有很好的分散性。而且,GO本身的比表面积比较大,
随着制造业的不断转型升级,智能化工业机器人的应用场合变得更加广泛,相关领域的技术研究也受到越来越多国内外科研院所和高新技术企业的密切关注。视觉识别检测系统与机器人技术相结合作为机器人智能化主要手段之一,也是实现机器人智能分拣抓取的核心技术。本文以无序分拣作业过程中机器人手眼系统为研究对象,针对物流企业工件无序分拣的关键技术问题进行了较为深入的研究,搭建了三维视觉识别检测系统和软件平台,并完成了整套
学位
目的本文的主要内容是河南省长期照护保险筹资水平测算。通过采用ILO筹资建模思路,估计一年期社会健康保险的筹资比例。初步设计适合省情的长期护理保险筹资制度和给付制度。
光纤传感技术是利用光纤为媒介以光波为载体,感知和传输待测信号的一种传感技术。光纤光栅(Fiber Bragg Grating FBG)凭借其传输过程中能量损耗小、机械工作强度高、复用传感器数量多等众多优势而广泛应用于输油管道泄漏预警、桥梁隧道结构健康监测以及高压电力传输线路安全保护等领域。随着光纤传感理论及其应用技术的高速发展,光纤传感技术正朝着大容量、长距离和高精度及网络化方向持续发展。本文在分
学位
稀土的过度开采,导致稀土资源面临日益枯竭的困境,而燃煤电厂燃烧产生的大量粉煤灰是一种可以再回收利用的二次资源,其中含有丰富的稀土元素。从粉煤灰中提取稀土元素可以解
随着我国老年人口数量的不断增加,老年人抚养系数的不断增大,我国面临的人口老龄化程度日益加深。为了应对人口老龄化这一突出社会问题,切实解决老年人养老问题,根据国外应对
改革开放四十年来,京津冀区域经济快速增长,然而这种过度依赖高能耗、高污染工业企业的粗放型发展模式,导致经济增长与环境污染之间的矛盾日益突出。现阶段,我国经济发展进入
基于生态区域法建立了适合县级土地生产潜力预测和集约利用评价的方法,计算出凤凰县各乡镇的光温生产潜力、气候生产潜力、气候-土壤生产潜力,综合得到凤凰县各乡镇的耕地生
本文针对当前变电站作业存在的风险,设计并构建了基于增强现实技术的变电站作业风险管控系统,即利用增强现实技术,以AR头显为媒介实现对变电站作业的操作指引、行为监督、远程协助、人员轨迹定位等功能。并考虑了增强现实技术必须适应变电站作业的一些特别要求,改进和优化了增强现实技术里的三维注册技术、虚实融合技术,使其具有更加实时、更加精确的特性。此外对本文设计系统中应用到的非常重要的室内无线定位技术在当前一些
学位