基于深度学习的多角度文本检测算法研究与应用

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:lzhongyue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和智能设备的不断发展,通过拍摄可以将自然场景记录成图片的形式,并通过互联网传播和分享。自然场景图像中含有丰富的文本信息,利用深度学习等技术从场景图像中提取的文本信息可应用于智能交通导航、文本检索和翻译、银行票据识别等诸多领域。由于智能设备的拍摄角度影响,自然场景图片中的文本多数呈不同倾斜角度排列,增加了检测难度,如何从场景图片中精准提取多角度文本信息成为文本检测的热点研究领域。本文对自然场景多角度文本检测任务进行了深入研究。首先,为扩充中文数据样本,采集并标注了自然场景中适用于铭牌、车牌、街景商铺、路标等文本内容检测的图像,构建了一个适用于多角度文本检测的中英文混合数据集TDS,与ICDAR2013、ICDAR2015作为本文实验的数据基础;其次,为解决图片中文本方向杂乱、受复杂场景影响导致特征提取效率低和受文本角度影响导致检测准确率低的问题,基于深度学习技术,研究了多角度文本图片文本方向预测模型、特征提取模型和检测模型三个任务;最后,为体现研究方法的有效性,将研究的三种方法应用到一个多角度文本检测系统。论文的主要工作如下:(1)研究了基于深度学习的多角度文本分类模型与特征提取模型。使用VGG16进行图片文本方向分类,针对参数冗余导致训练过拟合问题,经过混合剪枝的方法改进,移除部分重要程度排名较差的参数,找出一组最优参数子集,从而压缩模型参数,使用TDS数据集训练,并与原网络、使用其他剪枝方法后的训练结果对比,发现模型有效压缩且训练效率更高。使用darknet53作为特征提取网络,针对网络不同尺度特征图的检测过程中特征损失问题,提出一种融合浅层信息的网络来训练并提取文本特征,使用TDS与ICDAR数据集进行实验,结果表明训练效率提高。(2)研究了基于YOLO的YOLO_BOX多角度文本检测模型。针对YOLO算法的定位目标结果使用水平矩形框进行描述,导致不能有效检测倾斜文本框的问题,提出一种改进的YOLO_BOX文本检测算法,通过目标候选框预测、聚类过滤与角度矫正步骤,使优化后的算法适用于自然场景中多角度文本区域检测。使用TDS数据集和ICDAR数据集训练,并与原算法及多种检测算法对比,结果表明具有更好的准确率和召回率。(3)研究了基于改进算法的多角度文本检测系统。使用研究的三种方法设计了一个完整的文本区域检测流程,运用Python语言对检测系统的各功能模块进行程序设计,系统实现了对输入图片直接进行文本区域检测的功能,该系统更好的适用铭牌检测、车牌检测、街景检测等多种场景下的多角度文本内容检测。
其他文献
2020年高考后,山东省发布的《2020年山东省普通高校招生填报志愿指南》中阐述了一系列志愿填报及录取规则的改变,标志着山东省“新高考”进入实施阶段。新政策实行后,志愿设置和填报志愿的权限规则都有较大变化。其中,最大的变化当属取消文理分科,采取“3+3”选考模式。同时,志愿填报的模式由“院校+专业”转变为“专业+院校”,每位考生可填报志愿的数量从36个上升到96个。政策改变带来的影响包括2020年
随着人口老龄化以及肌体失能人群的增加,市场上出现了许多为人们提供肢体训练、位置转移、独立自理等功能的康复诊疗智能设备,为肌体失能人群提供康复诊断和训练理疗服务。但是,这些康复诊疗智能设备存在着诊断不精准、训练理疗效率低、诊疗数据无法积累、患者训练记录不完整等问题,同时,针对康复诊疗领域的现有平台功能大同小异、千篇一律,主要以数据存储与读取为主,并不能对数据进行更有效的利用。本文设计了一套既可以管理
作为数据分析和知识获取的有效工具,概念格在大数据背景下具有广阔的发展空间。通过高效挖掘数据深层信息,快速建立数据之间的联系,可以满足多种领域的任务诉求。随着生物基因测序技术的发展,研究者意识到不能仅仅局限于获取生物基因数据,探究其中蕴含的特征规律也十分重要。因此,寻找有效挖掘和分析生物基因数据的方法成为当前的研究热点。分析现有的数据挖掘方法,发现其应用于生物基因数据仍存在以下不足:数据挖掘过程中侧
紫貂广泛分布于西伯利亚和欧洲东北部地区的亚寒带针叶林。其分布区气候长期寒冷,冬季气温普遍低于-30℃。紫貂与其它寒冷环境下的动物(北极熊、企鹅、鲸类和鳍足类等)相比具有较低的体脂率,因此不能通过厚厚的皮下脂肪层来隔绝寒冷空气。由此可见,紫貂进化出了不同的寒冷适应策略,然而其寒冷适应机制尚不明确。本研究基于课题组已有的紫貂全基因组数据,利用比较基因组的方法筛选紫貂脂肪代谢正选择基因,通过另外两只紫貂
基于大数据、云计算、移动互联网等技术的发展,数据通信多采用公共信道,敌手可通过公共信道实施假冒攻击伪装成合法参与者进行通信,窃取内部信息,造成用户身份和敏感数据的泄露。为了抵抗假冒攻击,保护合法用户的身份隐私,在进行通信前需要对用户进行匿名身份认证和密钥协商。匿名认证和密钥协商后,考虑到现有的匿名通信系统在通信时,对网络带宽和内存需求较大,不适合小规模团体使用,但小规模团体对于匿名通信的需求十分迫
培育耐盐农作物是盐碱地开发的重要途径和可行措施,我国已培育出多种类型的耐盐粮食作物和经济作物,但种植成本较高,经济效益较低,尚处于实验阶段。相对于粮食作物,蔬菜的经济价值较高,是开发盐碱地更有前景的农作物。目前传统育种或基因工程育种获得的耐盐蔬菜的耐盐效果均不理想,且在盐渍条件下产量较低,鲜有大规模推广应用。大白菜(Brassica rapa L.ssp.Pekinensis)其生长周期较短,产量
生成对抗网络(GAN)通过对抗学习拟合真实样本分布,获得生成数据的能力,对人工智能的发展有重要意义。近几年,关于GAN的创新性研究越来越多,各种衍生模型不断完善与发展,被广泛地应用于图像领域,取得了很多突破性的成果。然而,GAN的本质是在两个神经网络的博弈过程中学习真实样本分布,其生成图像与真实图像没有绝对的对应关系且缺少明确的似然衡量,传统方法很难量化生成图像的质量。目前,针对GAN生成图像进行
知识图谱是由实体及其关系组成的语义网络结构,是以三元组的形式来描述现实世界中的各种事实,已经成为人工智能应用的重要资源。但是,现有知识图谱往往是不完整的,存在知识缺失现象。因此很多研究旨在对知识图谱进行补全,就是根据已有三元组推理出新的事实三元组并添加到知识图谱中。而知识图谱嵌入技术则是知识图谱补全的最好方法之一,其中以TransE模型为代表的Trans系列翻译模型具有较强的泛化能力,能够在链接预
蒙原羚(Procapra gutturosa)隶属于原羚属,主要分布于蒙古国、俄罗斯以及中国。呼伦湖国家级自然保护区(以下简称:呼伦湖保护区)的蒙原羚种群是由8只个体经过17年左右的时间形成的局域种群。然而,近年来,受近亲繁殖和人类活动影响,该蒙原羚种群表现出种群增长减缓等现象。因此,为了该种群长久健康的发展及科学的保护,我们基于8对微卫星位点和线粒体Cytb基因对该局域种群的遗传多样性进行检测,
古籍档案蕴含着先贤智慧,承载着民族情感,是我们国家非常宝贵的文化财富。目前很多古籍面临着风化、破损等问题,且无法被大众查阅和共享。古籍文档的数字化不仅便于人们研究和交流,而且有利于优秀传统文化的继承与发扬,具有重要的历史价值和科研价值。古籍文档数字化主要涉及图像预处理、文档图像分割、字符图像识别等关键技术的研究,本文针对孔府古籍文档图像中的文字识别问题,主要研究了以下内容:首先,针对古籍文档同一文