基于Transformer的场景文本检测研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:a348956376
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,场景文本检测受到了学术界和工业界的密切关注,该领域在过去的主流研究方向是基于卷积神经网络的框架,不过也有一定局限性,比如预测时需要执行非极大抑制操作,容易错误地过滤掉一些距离很近的检测框,影响检测效果,且需要人工指定过滤阈值,通用性不强。另外需要靠堆叠卷积核才能获得足够的感受野,网络结构复杂。近一年来,基于Transformer的方法开始被视觉领域的学者所研究,突破了传统方向上的一些限制,取得了重要成果。然而基于Transformer的检测算法也存在一些问题,比如对小目标检测效果差、训练速度慢、参数量大收敛困难。为了应对以上问题,本文研究并提出了两种新型的基于Transformer的场景文本检测模型:第一,针对多方向的场景文本检测任务,提出了一个端到端的适应多角度目标的场景文本检测模型。该模型采用多尺度预测的方法,用来解决小目标难以检测的问题,在特征金字塔深层的特征图后接入Transformer编码层,然后通过上采样拼接的方法,进行局部信息和全局上下文信息的融合。本文提出了一种局部自注意力机制,来提升Transformer编码层的训练速度,并在此基础上提出了一种局部共享的位置编码,在减少参数量的同时提高了泛化能力。本文还采用集合预测的思路进行问题的建模,在训练阶段让Transformer解码层输出一定数量的预测框,然后通过匈牙利算法进行预测框和目标框的匹配,并计算具体损失。这种建模思路的优点在于控制了检测框的数量,在预测时不需要执行非极大抑制操作,提升了检测效果。实验在ICDAR2015、ICDAR2107、MSRA-TD500数据集上进行,所提出的方法在速度和效果上都达到了理想的效果;第二,在上一模型的基础上,提出了一个基于实例分割的Transformer检测网络,用分割的思路解决目标检测问题,来适应文本的多样性。传统的基于实例分割的检测方法,通常只关注局部信息,而不考虑上下文,本文提出的模型通过Transformer编码层引入了全局上下文信息;在解码阶段,本文尝试了两种不同的还原到原图尺寸的方法,并进行了实验对比;网络的损失函数只保留了分类任务,在得到分类结果后,通过像素聚合等操作就能得到最终的检测结果,这种设计使得网络相比于回归任务更容易训练。
其他文献
目的:本研究旨在通过随机对照试验观察自拟滋肾疏肝汤治疗女性围绝经期抑郁症的临床疗效及安全性,为今后临床治疗女性围绝经期抑郁症提供临床参考。方法:收集符合本研究纳入标准的60例女性围绝经期抑郁症患者,通过随机数字表法分为对照组和治疗组,每组各30例;对照组予西药治疗(盐酸帕罗西汀),治疗组在对照组的基础上加用滋肾疏肝汤,疗程均为8周。观察两组患者治疗前与治疗后汉密尔顿抑郁量表(HAMD-24)、改良
学位
近年来,合理饮食已逐渐作为一种经济、安全、高效的防癌、防过敏策略被广泛接受。色氨酸作为蛋白质的组成成分,广泛存在于各种食物中。而且,色氨酸的代谢产物参与机体生长发育、昼夜节律、新陈代谢、免疫反应等多种生命活动。因此,色氨酸代谢备受关注。IL4I1(IL4I1是人的基因,1l4il是小鼠的基因)编码一种能够催化L-氨基酸的酶,对芳香族氨基酸,即苯丙氨酸、色氨酸和酪氨酸有较高的催化活性。在人体中,IL
西北五省区包括陕西省、甘肃省、青海省、宁夏回族自治区和新疆维吾尔自治区,是丝绸之路经济带的重点区域,盛产水果、枸杞、牦牛肉等特色农产品。入选国贸基地的企业,其主营产品也以水果、枸杞、畜牧产品等为主。
期刊
学位
葡萄苗木的活力和成活率是影响葡萄园品质的关键因素,苗木的越冬期是其植物生长发育的重要阶段之一。目前还没有对葡萄休眠期苗木的生命力和存活率进行准确评估的研究。本研究的目的是探讨如何利用分子信息评估苗木生存力和存活率,并利用该方法比较埋土与田间放置的葡萄苗越冬的效果,以及不同省份出产的苗木的抗寒能力。实验材料从河北,江苏和山东获得。为比较埋土与田间越冬巨峰葡萄苗木的活力差异,通过(Sq.)RT-PCR
学位
随着互联网的高速发展以及电商的普及,企业间的竞争愈加激烈,如何抓住老客户、吸引新客户、了解用户偏好和需求,是关乎企业发展乃至存亡的重要问题。企业通过用户画像系统,分析业务实体对不同业务中的用户特征进行统计分析和计算实现企业精细化运营。本文以DK企业自营业务需求为背景出发,借助实时框架技术建立并设计实时分析类用户画像系统,使公司以业务中心发展的模式转换为以客户为中心发展的模式稳定核心用户、挖掘潜在用
自《普通高中体育与健康课程标准(2017年版)》首次提出体育学科核心素养以来,体育学科核心素养已成为学界热门话题,也对基层体育教学产生了重大影响。如何把体育学科核心素养融入体育课堂教学的目标、内容、方法、手段、评价之中,这既是体育教师所面临的现实困境,也是学校体育理论研究者急需解决的问题。在新修订的义务教育阶段体育课程标准即将出台之际,《体育教学》杂志2022年专题讨论栏目重点推出"体育核心素养与
随着我国电商产业的迅猛发展,网络购物逐渐成为人们主要的购物方式。面对每天数以亿计的快递订单,如何提高快递包裹分拣与配送的效率,成为所有快递物流公司亟待解决的问题。本文聚焦全自动化快递包裹分拣生产线上的包裹单件分离问题,设计并实现了一种基于视觉的单件分离系统;设计并实现了两种快递包裹分割算法,有效地解决了快递包裹难以分割的问题;优化了快递包裹分割算法的推理方案,使该系统成功地部署在嵌入式开发板中。本