基于定位修正的文字检测方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:allonwxg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然场景中的文字读取一直是计算机视觉领域中的一个重要任务,它在现实生活中有着很多应用场景,比如图片检索,自动驾驶和视频理解等。近年来,得益于深度学习的广泛应用,场景文字检测领域取得了快速的发展。一些文字检测方法在多个公开场景文字数据集上取得了很好的效果。但是大部分现有的文字检测方法在处理极端长宽比的,尺度较大的文字行时都存在较大的困难,容易出现对文字区域定位不准确的现象。为了能够提升现有的文字检测算法对极端长宽比的,尺度较大的文字行的检测能力,本文利用定位修正的思想,对现有的文字检测算法进行了一系列的改进。这些改进措施主要包括三个方面:(1)本文提出了一种新的模块:文字特征对齐模块。由于受到感受野的限制,文字检测网络在处理很多极端长宽比的,尺度较大的文字行时只能关注它们的部分信息,这导致网络输出的检测框精度不高。文字特征对齐模块利用初始的文字检测框来对齐文字特征,可以针对性地调整网络感受野,让网络更容易得到完整的文字行信息。在对齐之后的文字特征之上再次预测可得到新的检测结果,以达到修正文字检测框,提升检测精度的目的。(2)本文提出了一种新的非极大值抑制方法——基于位置信息的非极大值抑制。网络预测的文字检测框由多条边组成,有的边可以精确定位文字的边界,有的却不能。本文通过引入位置信息来协助网络从众多的检测框中选出预测准确的边,以修正原始的检测结果。相较于传统的非极大值抑制方法,该方法可以帮助网络在后处理的过程中生成更加精准的文字框。(3)本文提出了一种新的个体均衡的损失函数。在计算文字检测网络的损失时,通常会存在不同文字的损失占总损失的比重不一致的现象——尺度较大的文字块占的损失函数的比重很大,而尺度较小的文字块占损失函数的比重很小。本文提出的个体均衡的回归损失函数对不同尺度的文字块赋以相同的权重,可以帮助网络得到更加均衡的训练,提升网络整体的检测效果。综上,本文从网络结构和后处理算法的角度出发,分别利用文字特征对齐模块和基于位置信息的非极大值抑制来修正网络的检测结果,可以提升文字检测网络对极端长宽比的,尺度较大的文字行的检测能力。另外,本文还提出了一种个体均衡的损失函数来帮助网络得到更加均衡的训练。在多个场景文字检测数据集上的实验都证明了这些改进方法的有效性。
其他文献
电力行业是维持社会经济发展的关键行业,关乎国民经济的命脉。长期以来,我国实施了一系列针对电力体系的改革,并对电力行业的发电侧和售电侧产生了重要影响。2022年,国家发改委和能源局联合印发了《关于加快建设全国统一电力市场体系的指导意见》,文件明确提出要实施电力改革的市场化转型,在全国范围内还原电力的商品属性,提升电力市场对高比例新能源的适应性。在这种环境下,电网企业面临着新的机遇和挑战。一方面,电网
学位
高职辅导员专业化发展是提升高职院校思想政治工作质量和培育高等职业人才的时代需要。推进辅导员学习共同体建设可以促进高职辅导员专业技能提升、促进学生管理机制优化及完善高职院校思政工作协同育人机制。构建辅导员学习共同体需致力于确立共同职业愿景、构筑“教、学、研”三位一体的学习生态、尊重每一位辅导员的个人智慧。
期刊
在世界能源结构转型和“碳中和”“碳达峰”目标的背景指引下,中国新能源发电产业迎来了高速发展的新阶段,加快推进可再生能源发电已经逐渐成为共识。新能源发电指的是通过风能、太阳能等可再生能源转化为电能的发电形式,其基础能源是可再生能源,在能源转换的过程中对环境造成的影响较小。随着我国供给侧结构性改革的逐渐深化,清洁绿色的新能源发电逐渐变为我国电力产业的重点发展方向,因此,新能源发电拥有宽广的市场发展前景
学位
随着虚拟现实(Virtual Reality,VR)技术的成熟化,沉浸式视频愈发受到大众的喜爱,为了保证用户的观看质量,视频传输过程将消耗大量的带宽资源以提供高清和低时延的视频内容。然而,当前无线网络的带宽资源有限,难以保证高码率视频的传输时间约束,与此同时,目前绝大部分VR终端视频源来自于云端,从云端获取视频内容则进一步增加了传输损耗。本文面向带宽资源有限及云端获取视频传输损耗大的情况,提出利用
学位
目的:观察复方丹参滴丸治疗冠心病不稳定型心绞痛的临床疗效及其对患者血脂水平、心功能的影响。方法:将70例冠心病不稳定型心绞痛患者随机分为常规组和联合组,常规组予以西医常规治疗,联合组在西医常规治疗的基础上予以复方丹参滴丸治疗,共治疗2个疗程。比较2组治疗前后心功能、血脂水平,并比较2组临床疗效、不良反应。结果:联合组总有效率94.29%,高于常规组77.14%(P<0.05)。治疗前,2组左室射血
期刊
与传统基于密钥的安全协议相比,仅基于底层统计特性的物理层安全技术近年来受到了广泛关注。导频污染攻击作为一种危害较大的物理层主动窃听方式,攻击者通过发送与合法用户相同的导频干扰合法用户的导频训练阶段,从而使物理层安全面临新的挑战。现有导频污染攻击研究较少关注非正交多址接入(Non-orthogonal Multiple Access,NOMA)场景,大部分攻击检测方案需要修改导频结构,实用性较低,相
学位
作为正交频分复用技术(Orthogonal Frequency Division Multiplexing,OFDM)的演进技术,基于交错正交幅度调制的滤波器组多载波(Filter Bank Multicarrier with Offset Quadrature Amplitude Modulation,OQAM/FBMC)技术通过在每个子载波上引入具有优秀时频聚焦特性的原型滤波器,从而产生低旁瓣
学位
辅导员作为大学生思想政治教育的中坚力量,其职业化发展是高校辅导员队伍建设的重要方向。笔者从职业准入、岗位实践、职业出路三个维度分析了当前我国高校辅导员职业化发展面临的困境,并提出加强辅导员队伍建设、增强辅导员职业认同感,以及提高辅导员职业化水平三个方面探索高校辅导员职业化发展对策。
期刊
随着“双高计划”的提出,高职院校的人才培养工作面临着新的调整,相应地,高职院校辅导员的工作内容和职业能力也应该做出改变。鉴于此,针对广西壮族自治区高职院校辅导员教学现状,具体分析了“双高计划”对高职院校辅导员职业能力的要求,指出了现阶段高职院校辅导员职业能力提升应遵从的基本原则,从多个层面提出了“双高计划”视角下高职院校辅导员职业能力提升的有效措施。
期刊
随着高等教育课程思政建设的深入发展,专业思政作为一个新的课程思政模式也应运而生。由于专业思政的专业知识和思想政治教育跨界性,高职院校专业思政建设需要辅导员与专业教师协同工作,形成协同育人机制。依据《高等学校课程思政建设指导纲要》、三螺旋协同创新理论,构建了新时代高职院校辅导员、专业教师、课程团队三位一体的专业思政协同育人机制。只有这样,才能有效地开展高职教育专业思政育人实践。
期刊