基于深度学习的场景文字检测问题研究

来源 :河南大学 | 被引量 : 0次 | 上传用户:fengwei27149
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在场景图像中对文字的位置进行检测,这是计算机视觉技术领域内的一个重要研究方向,在无人驾驶、票据分析、车牌识别、盲人导航、无人超市等各种应用场景里都有着十分重要的研究意义。与传统的光学字符识别(Optical Character Recognition,OCR)任务相比,在场景图像中的文字通常都有着颜色多样、字体大小不统一、背景信息复杂、文字表面遮挡、图像拍摄模糊、分辨率低等诸多影响因素,这些影响因素也为场景文字检测增加了难度。随着近年来机器学习以及深度学习技术的不断发展,许多基于深度学习的场景文字检测算法都有很好的检测的效果。但是目前还存在着一些难题:由于场景图象中文字尺度变化过大,难以通过常规的卷积神经网络捕捉到各个尺度的信息,正负样本的不均衡性也会导致训练难度变大,出现检测结果不稳定的现象。复杂的场景图像也会使检测算法出现误判。目前主流的文字检测算法对于排列复杂的文本行的检测结果也不够精准。因此,本文针对上述问题提出的创新性工作如下:(1)提出一种基于定位置信度与双目标函数集成的场景文字检测算法。该算法根据现有检测算法的不足,设计了定位置信度模块。该模块增加了长文本的中心区域置信度值,抑制非中心区域置信度值,减少长文本被分割的现象。设计多尺度的特征提取网络结构。在特征提取阶段,使用双通道的图像输入,将原始图像以及缩放后的图像同时送入神经网络。特征金字塔网络的结构使得卷积神经网络可以在8个不同的尺度上进行特征提取及特征融合,同时采用反卷积的结构代替不能进行学习的上采样层。采用双目标函数集成的方式进行图像置信度的训练,目标函数分别使用dice loss和focal loss。同时,也设计实验验证了双分支目标函数集成、dice loss+focal loss组合的有效性。设计了基于宽高比和角度差的预测框回归损失NIo U,将预测框和标注框的宽高比、倾斜角度整合到损失函数中,提高了算法的检测精度。(2)提出一种基于Transformer的字符级场景文字检测算法。本文针对现有字符级检测算法由于文本排列密集、文字模糊、图像质量差等因素导致检测效果差的问题,设计了基于Transformer的字符级文字检测算法。该算法根据文本行中的字符顺序设计基于Transformer的编码-解码结构。使用该结构进行字符之间的相关性学习,从而使算法能够输出每个检测框的位置以及顺序信息。同时又设计了基于字符顺序的损失计算方式,保证了检测结果的准确性。综上所述,本文针对场景文字检测任务中文字尺度变化大、长文本检测时文本被分割、单一置信度分支结果不稳定的问题,提出了基于定位置信度与双目标函数集成的场景文字检测算法。针对现有字符级场景文字检测算法对排列密集的、模糊的文字检测效果差的问题,提出了基于Transformer的字符级场景文字检测算法。
其他文献
早期经济学研究通常会略去不确定因素,然而现实世界的发展,使得学者们意识到不确定性冲击会对经济运行产生不容忽视的作用。鉴于此,对经济不确定性展开研究成为经济理论研究与政策制定者关注的焦点。尤其是在2008年全球金融危机爆发之后,经济不确定性与金融因素的叠加作用对宏观经济运行产生了异乎寻常的影响,这引起学者们对经济不确定性进行更深层次的研究。特别的,受到后危机时期世界经济复苏乏力的影响,我国在内部和外
学位
近年来,大数据、人工智能、5G等数字技术不断改变人们的生产生活,数字经济再一次被社会所关注。自2008年经济危机过后,数字经济表现出不同于其他经济形态的强大适应性;在2020年的新冠疫情期间,数字经济的表现尤为亮眼,更加让人们认识到了数字经济的重要性。此外,世界各主要经济体也相继出台了各自的数字经济发展战略,学者和机构也对数字经济的概念、规模测度等问题展开了研究。梳理相关文献,学术界对数字经济的界
学位
能源作为经济社会发展的重要因素,在推动经济总量扩张的同时带来了严重的环境问题,而环境恶化和资源过度消耗又反过来阻碍经济增长,甚至导致经济全面衰退。为应对与能源使用相关的环境问题,全球各国进行了多次协商并提出多种节能减排的可行性方案。中国政府也公开承诺了一系列节能减排目标,作为世界上最大的能源消费和碳排放国家,中国能否实现节能减排目标是决定世界节能减排行动成败的关键。在节能减排政策的实施中,提高能源
学位
乳腺癌是影响全球女性健康最常见的恶性肿瘤之一,给全球女性带来了严重的影响。目前早期筛查依旧是控制乳腺癌发展的最有效手段。最近几年研究表明,乳腺癌的分子表型对病人的预后具有指导性的作用。因此,通过乳腺癌的分子表型初步判断乳腺癌的分子分型进行患者的预后分析具有重要的临床指导意义。本研究通过将MRI(Magnetic Resonance Imaging,MRI)影像组学特征和生物标志物关联,找出关键特征
学位
插入变异指的是一段新的或已经存在的碱基序列由于突变增加到DNA序列中,而且与某些遗传性疾病有着重要关系,近几年已经成为一个研究热点。插入变异的检测可以通过第二或者第三代测序数据,然而目前基于第三代测序技术的数据集错误率较高,相关技术仍然不成熟,所以本文主要研究基于二代测序数据分析的新插入变异检测方法。本文提出了两种方法,一种是基于局部组装和重比对的方法,另一种基于综合比对信息以确定精确断点的方法。
学位
随着互联网技术的发展,尤其是以移动互联网为代表的快速发展,使得互联网用户数量产生了爆炸式的增长,也导致互联网上产生了越来越多的数据。每天新产生的数据已经达到了艾字节(EB)级。如此多数据,其中的大部分是文本数据,使得人工处理极为困难。这些文本数据蕴含着丰富的信息,理论上有着很高的价值,但这些数据因为非结构化的属性,使得传统的计算机方法难以对其进行有效的处理及利用。因此人们迫切地需要新的方法来让计算
学位
临近天气预报的高效性、及时性和准确性,在气象领域具有至关重要的作用。多普勒天气雷达回波图像作为临近预报的主要参考资料之一,天气雷达回波图像预测一直是临近预报中的一个研究热点。预测的相关算法被称为雷达回波外推算法,其主要任务是根据历史的雷达回波数据对未来一段时间内的天气雷达回波的生消演变和强度情况进行预测。传统外推算法对历史的雷达回波数据利用率较低。在回波比较零散,回波发生合并、分裂时,或者回波状态
学位
优秀的民族精神作为一种精神力量,具有正向、积极、向上等特点,对人们的实践活动具有重要的推动作用。改革开放后,我国经济快速发展,重大事故灾难的数量一直居高不下,暴露出我国应急管理体系还不完善、应急管理水平和能力有待提升等问题。对重大事故灾难中的民族精神进行研究,有助于进一步拓展民族精神理论的基础性研究,更好地坚持中华民族精神正确的发展方向,进一步完善应急管理理论,同时有利于进一步弘扬和培育优秀的中华
学位
随着信息系统主、客体规模日趋膨胀,制定和维护一个符合系统功能与安全需求的RBAC角色体系,对于系统安全管理员来说具有很大的挑战。为了应对这一问题,自动化或半自动化的角色工程方法受到了广大学者的关注与研究。传统的基于概念格的角色探索方法具有主动获取系统角色的特点,在角色工程方法中占据独特的地位。然而,随着效率与适应性要求的提升,该方法在时间复杂度和应用场景上存在以下三点不足:第一,传统的基于概念格的
学位
改革开放以来,中国经济实现跨越式发展,取得举世瞩目的成就。中国人均可支配收入逐年增加,城乡收入差距不断缩小。中国中等收入群体的规模不断扩大,已经拥有世界上最大的中等收入群体规模,成为我国经济发展的主体部分。伴随着收入的增加,居民的生活能源消费需求不断增加。收入水平的提高也增强了居民的节约能源及环境保护意识,并为节能产品的研发提供了资金支持。能源并不是取之不尽用之不竭的,如果无节制的开发,那么自然界
学位