基于深度学习的自然场景图像中的文字检测方法研究

来源 :湖南师范大学 | 被引量 : 0次 | 上传用户:feihuiy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人们生活日趋智能化,大众对计算机视觉任务的需求日益增长,如何快速准确的从自然场景图像中检测出文字已经成为这个领域亟待解决的难题。尽管近些年在深度学习和大量数据的驱动下,许多研究者对文字检测技术进行了深入的研究,也取得显著的进展。但由于自然场景中文字种类的多样性、形状的可变性、以及用于描述文本的简单表示形式(如矩形包围框或四边形)的限制,在复杂多变的自然场景下,对任意方向任意语言的文字进行准确检测仍然具有很大的挑战性。为了解决排列方向各异的场景文字检测问题,本文在第4章提出了一种基于字符区域的任意方向自然场景文字检测方法。该方法利用字符作为基本元素,只专注学习字符与字符间的组合特征,解决了目前场景文字检测技术面临的任意方向排列文字的难题。此外,为了解决标准公共数据集中缺少字符标签的问题,本章提出的方法不仅采用合成图像中现有的字符级别标签进行训练,还提出一种信息迁移机制可以将从合成数据中学到的特征检测能力去获得真实图像的字符级别标签。为了验证本文提出方法在检测多方向文字时的有效性,我们在场景文字检测标准公共数据上进行了实验。与之前的方法相比,本章方法在ICDAR2013数据集上的F-score提高了2.6%,在包含弯曲文本的SCUT-CTW1500数据集上提高了7.9%。与此同时,在标准公共数据集ICDAR2015和MSRA-TD500上的测试结果与相关方法相比也获得了具有竞争力的结果,实验结果表明该方法对任意方向的文字都具有较好的适应性。实验中发现第4章提出的方法在应对排列紧凑的阿拉伯文字时效果欠佳。为了解决多语言多场景的文字检测问题,本文构建了一个名为Arabicdata-2020的阿拉伯文字数据集,并在第5章提出了一种基于任意方向的多语言自然场景文字检测方法。该方法在第4章方法中加入一个文本判别模块与一个几何分支,文字判别模块能对输入图像进行文字判别,然后将有紧密排列文字(阿拉伯文字)的输入图像送入几何分支进行处理,从而有效提升文字检测模型在多种语言场景下的准确率。改进后的文字检测方法得益于几何分支在Arabicdata-2020数据集上所获得的F-score值由34.1%提升至66.7%。为了验证本文方法在多语言场景文字检测中的泛化能力,本章方法还在ICDAR2017-MLT数据集上进行了评估,与另外四种方法对比,本章方法在综合性能上也取得了更好的结果。
其他文献
学校教育质量影响着人的成长,在一定程度上影响着社会的进步,倍受社会关注。而课堂教学作为学校教育的主要形式,客观、有效的评价方式就显得尤为重要。目前课堂教学存在课堂教学质量评价困难、教学过程管理与质量监控缺乏客观评价依据等问题。人工智能技术的发展给课堂教学评价提供了新的思路,但市面上基于人工智能技术的课堂评价方案仍然存在系统成本高、评价准确度低、评价不全面等一系列问题。针对以上问题,论文提出了一种基
探索不同耕作模式对土壤健康的影响可为农业生产的可持续发展提供科学依据。上海稻田在管理中逐步推行绿色种植和减肥减药措施,冬季则以深翻和种植绿肥作物等休耕措施为主。本研究针对不同的种植管理方式(常规管理和绿色管理,常规管理正常施用化肥和农药,绿色管理化肥和农药减施十分之一,化肥减施量由有机肥代替)和冬季休耕模式(绿肥和深翻,其中绿肥为蚕豆),依据成土时间梯度选择松江、奉贤、嘉定和崇明典型田块,通过野外
开展农产品质押监管业务能够有效缓解农业型中小企业及农村经济组织融资困境,是解决“三农”问题的有效途径之一。农产品质押监管业务的关键在于风险控制,风险控制的关键在于对风险的准确判定和及时上报,核心是对仓库内以及果树林区运动目标的准确检测。传统质押物监管方式为需要人工长期值守的视频监控方式,存在监管不及时、效率低的问题。本文采用基于视频监控的运动目标检测技术,实现仓库和果树林区运动目标的准确实时监管。
多糖作为党参(Radix Codonopisis)的主要活性成分之一,具有免疫调节、抗氧化等多种生物活性。由于党参品种繁多、来源广泛,因此大多数研究仅针对某一品种党参多糖,具有局限性。目前关于党参多糖的研究多集中在根部,而茎叶作为党参的重要组成部分,虽具有丰富的化学组成和生理活性,却鲜有相关研究。鉴于本课题组前期已完成素花党参(Codonopsis pilosula Nannf.var.modes
人类在长期的社会压力下会导致焦虑、抑郁以及社交回避等现象从而增加罹患精神疾病的风险。长期社会击败(Chronic social defeat stress,CSDS)是导致快乐缺失、社会回避和社交障碍等症状的常用动物模型。此外,啮齿动物社会击败模型中发现的易感性差异也适用于人类,因为人类在面对(社会)压力时也会表现出不同的反应。一些人能够应对慢性压力,而另一些人在长期暴露于压力之下时会逐渐发展成重
林麝(Moschus berezovskii)是我国国家一级保护濒危野生动物,圈养林麝肠道寄生虫病是其重要的群发性疾病之一,引起圈养林麝的饲料利用率降低,生长速度下降,生产性能降低,麝香产能下降,严重可导致圈养林麝肺、胃肠道出血,出现炎症,从而引起圈养林麝死亡,给人工养麝业造成严重的经济损失。为了解四川省理县、茂县、马尔康市、都江堰市、汉源县、泸定县和陕西省渭南市圈养林麝的肠道寄生虫病的感染情况,
设P是Hilbert空间H上的幂等算子,容易证明当λ ∈ C\{-1}时,λP+I是可逆的.构造两个酉算子函数Uλ和Vλ,即Uλ:=(AP+I)|λP+I|-1 和 Vλ:=(λP*+I)|λP*+I|-1,λ∈C\{-1}.且定义两类有关幂等算子P对称算子的集合ΓP={J:J=J*=J-1 且 JP J=I-P}和ΔP={J:J=J*=J-1 且 JPJ=I-P*}.本文在此基础上,主要研究这几
目的:在常规降糖药物基础上,观察2型糖尿病早期肾病患者加用利拉鲁肽或达格列净治疗后各临床指标的变化,评估其临床疗效;并进一步对比两种药物同时联用时的疗效差异,为糖尿病肾脏疾病患者的治疗提供新思路。方法:本研究选取2020年1月至2020年11月就诊于长沙市第四医院内分泌科且符合入选标准的2型糖尿病早期肾病患者120例。根据患者就诊先后顺序完全随机化分成常规组、利拉鲁肽组、达格列净组、联合组每组各3
润滑油的蒸发损失是衡量润滑油产品质量优劣的关键指标,其测量结果的准确度受温度影响很大。为提高润滑油蒸发损失测定仪器的温度控制精度,保证蒸发损失测量结果的准确性,在湖南省计量检测研究院与湖南师范大学联合攻关科研项目“润滑油蒸发损失测定仪温度控制方法研究”的资助下,对润滑油蒸发损失测定仪的温度控制方法开展了如下研究:介绍了国内外润滑油蒸发损失测定仪领域研究现状以及常用的温度控制方法,阐述了论文研究的背
云存储作为一种新的存储模式可以使资源受限的用户将大量数据外包存储到云服务器,并通过按需付费的方式享受云存储强大而优质的存储服务。数据拥有者无需亲力亲为地管理和维护数据,大大节省了存储和管理的成本。然而,云存储在为人们带来诸多益处的同时,也不可避免地面临着一些新的问题和挑战,引起学术界和工业界的广泛关注。首先,云存储模式使数据拥有者失去了对数据的物理控制权,一旦云服务器出现软硬件故障或自身利益驱动而