基于深度学习的自然场景文本定位方法研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:hongqinshuling
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机视觉的发展,自然场景下的文本定位已被广泛应用于工业自动化、无人驾驶、实时翻译等众多领域。但由于自然场景的文本背景复杂多变,文本尺度变化较大,现有的定位方法存在感受野不足,特征融合效率低下等问题,定位精度仍有提升空间。针对以上问题,本文在基于回归的定位方法基础上,引入自适应特征融合机制并改进网络感受野,进一步提出了基于Transformer主干的定位网络,实现了场景文本定位识别系统。本文做出的研究工作如下:(1)提出了一种基于改进感受野和自适应特征融合的场景文本定位网络,以提高对于极端长宽比和多尺度文本的定位准确率。首先在主干网络中引入密集连接的空洞卷积模块,以更加密集的采样点获取多尺度信息,同时通过具有不同扩张率的空洞卷积提升网络感受野,弥补由于感受野受限而造成的高级语义信息的丢失;在特征金字塔阶段,引入自适应特征融合模块,对不同尺度特征赋予空间权重,通过学习自适应地调整特征融合时的尺度信息,以保持特征的尺度不变性。实验结果表明,本方能有效提高对于极端长宽比和多尺度文本的定位准确率。(2)提出了一种基于Transformer主干的场景文本定位网络,该方法将Transformer结构引入文本定位任务中,以增强文本特征之间的长距离依赖关系,从而提高定位精度。设计了一种基于Transformer-CNN的编码解码结构网络,使用多个堆叠的Transformer编码器对文本图像进行特征提取,捕捉长距离依赖以获得全局感受野;摒弃传统的特征金字塔网络,引入深度可分离卷积解码器融合局部特征并减少参数量。实验结果表明,本方法提高了文本定位的准确率,验证了Transformer对于文本定位任务的有效性。(3)以本文所提文本定位方法为基础,设计并实现了一个场景文本定位识别系统,分别从系统的可行性分析、总体设计和功能设计阐述系统设计过程,使用QT作为系统搭建工具,Python作为模型训练语言,My SQL作为数据存储软件,有效将所提方法转化为实际应用。
其他文献
随着地壳运动和工业化发展,生物圈累积的过量氟化物对生物生长发育甚至人类健康造成不可逆的损伤。家蚕作为一种经济昆虫和模式生物,具有重要的经济和科研价值。目前关于家蚕氟中毒的研究和预防措施众多,但缓解氟化物毒性的天然产物和解毒剂仍在不断探索中。白藜芦醇,一种具有生物学活性的植物抗毒素,其抗氧化应激功能被广泛应用,研究表明白藜芦醇能逆转多种不利因素所造成的氧化应激损伤。因此,本课题试图探索白藜芦醇是否具
学位
我国是果业大国,果树种植面积每年都在不断扩大,农业智能化装备在果园中的应用有效改善了果园作业的工作效率和精度,同时减轻了工作人员的劳动强度。将RTK-BDS和RGB-D深度相机为导航感知设备搭载在果园喷雾机器人上,以实现果园喷雾机器人的自主导航作业,主要研究内容如下:(1)搭建果园喷雾机器人自主导航试验平台。基于履带式移动底盘进行了果园喷雾机器人感知控制系统的设计,通过RTK-BDS、RGB-D深
学位
目的:分析铁剂的临床疗效和不良反应(Adverse drug reaction,ADR)为临床铁剂的合理使用提供参考,为进一步规范用药提供依据。在此基础上探讨药师在治疗缺铁性贫血过程中的作用及监护流程,建立合适的药学服务(Pharmaceutical care,PC)模式。方法:1.通过对特殊人群使用不同剂型的铁剂临床效果对比,探讨不同剂型的铁剂治疗缺铁性贫血的临床疗效差异。随机抽取镇江某医院在2
学位
培养农村实用人才,是实现人才振兴、乡村振兴的重要举措。但从目前农民培训实践来看,现行培训仍处于粗放型培训阶段,存在培训目标泛化、培训内容错位、培训绩效难以有效评估,教育培训后难以与职业有效对接等问题。文章针对当前农民培训存在的问题提出新时代提高农村技能培训实效的措施,主要是统筹安排培训工作、创新培训方式、优化资源供给、加强监督管理、强化跟踪服务。通过采取具体的加强组织领导,统筹安排培训工作,整合培
期刊
建筑工人群体不安全行为是造成建筑安全事故,尤其是重大安全事故的重要原因。我国建筑工人长期处于由复杂人际关系而构成的群体之中,群体内工人联系密切且彼此间行为具有一定的联系性,不安全行为极易在群体内蔓延,呈现出行为传染效应,最终导致大范围的群体不安全行为。因此,从行为传染的角度探究建筑工人不安全行为的群发特性对于有效降低安全事故率,提高施工安全管理水平具有重要意义。本文通过对既有文献的综述和理论分析,
学位
农业喷雾机器人是智慧植保的重要内容。相比于人工喷雾和传统植保机械喷雾,喷雾机器人能够有效提高农药喷雾效率、显著降低人力成本、保护生态环境和作业人员安全。为实现上述目的,要求喷雾机器人能实时检测果园场景目标并区分靶标与非靶标,从而只对靶标喷雾。本文为实现果园喷雾机器人的对靶变量喷雾,使用深度学习的方法对果园场景图像进行了语义分割,并针对分割出的果树靶标设计了对靶变量喷雾系统,主要研究内容如下:(1)
学位
碘难治型甲状腺癌(radioiodine-refractory differentiated thyroid carcinoma,RAIRDTC)因其对放射性碘抵抗的特性而成为难治性疾病之一。目前根据不同的临床指征,RAIR-DTC的治疗方法常采用促甲状腺激素(thyroid stimulating hormone,TSH)抑制下随诊监测、局部治疗及全身治疗三种处置策略,但患者的总体生存期仍然较差
学位
监察体制改革,对基层纪检监察机关的审查调查部门提出了人员结构、办案能力、纪法衔接等方面的新要求。在这种情况下,如何正确履行好审查调查职能,让审查调查职能真正能够强化“不敢腐”的震慑显得非常重要。通过探索基层纪委监委的审查调查职能的履行情况,在一定程度上有利于推动基层纪检监察工作能够更加科学、高效和全面地开展,促进全面从严治党主体责任的落实。本文从X县纪委监委审查调查职能部门发展历程、机构设置现状以
学位
粮食是社会稳定的根基,但是在粮食储藏过程中,因为害虫而导致的粮食损失达到数百万吨每年。如何快速有效的对粮仓害虫进行检测识别,是解决粮食储藏安全问题的关键一步。随着计算机视觉的发展,以机器学习的方式进行检测识别成为主流,但是检测速度慢并且鲁棒性不高,如何精准有效的检测粮仓害虫成为当务之急。论文提出采用改进的YOLOv5s网络对粮仓害虫进行检测识别,设计和实现了粮仓害虫监测系统。论文主要工作如下:1、
学位
近年来,随着工业的飞速发展和气候环境的改变,细菌霉菌等有害微生物给人类身体健康带来严重的威胁,已成为全球范围内亟待解决的问题。目前对抗菌技术的研究主要集中在紫外线照射,臭氧氧化,氯化和光催化等领域。其中,光催化抗菌技术由于材料简单易制备、抗菌持久高效、安全绿色环保等优点而成为目前的研究热点。本文以Bi4O5I2为基质,通过与Bi OCl、Sn O2-x和Ag复合,分别制备了Bi4O5I2/Bi O
学位