基于自注意力机制的端到端场景文字检测与识别方法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:bn1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文字是人类文明的产物,蕴含着准确且丰富的高层语义信息,传达人类的思想和情感,是人们交流、信息传递和互动的主要方式之一。自然场景文字检测与识别任务,也可称为场景文字提取,其目标是从自然场景图像中获取文字信息,包括文字区域的定位以及文字内容的识别。由于场景文字检测与识别技术在实际应用中发挥着重要作用,例如实时翻译、自动驾驶、图像检索等,如何准确并且高效地从场景图像中提取文字信息一直以来都是研究的热点。早期场景文字提取采用级联的框架,由独立训练的场景文字检测模型和场景文字识别模型构成。近年来,随着深度学习的兴起,基于多任务学习的端到端场景文字检测识别框架成为研究的主流。和传统的扫描文档光学字符信息提取相比,场景文本因其图像的采集方式较为随意以及文本形式变化多样等原因,面临着更多的挑战。本文根据自然场景图像的特点,对端到端场景文字提取技术展开研究,取得了以下研究成果:首先,提出了一种空间注意力增强的端到端场景文字提取网络。现有的端到端场景文字提取模型,识别分支由于没有充分利用特征图的空间信息,导致倾斜文本以及不规则文本识别效果较差。同时,由于自然场景图像背景多元复杂,对检测以及识别都造成一定的干扰。本文提出的模型,在现有基于自注意力机制的文字识别模型基础上,使用二维注意力机制构建文字识别分支,充分利用二维文本图像特征图的空间分布信息。同时,针对倾斜文本和不规则文本特征图存在较多背景信息干扰的问题,本文提出一个空间注意力增强模块,将前景背景信息融合到识别分支的注意力计算中,提升识别分支对于文本和非文本区域的区分能力。实验表明,二维注意力识别分支和空间注意力增强模块有效提升模型对倾斜文本和不规则文本的信息提取能力,并且在主流数据集上的测试结果整体优于当前最好模型。其次,提出了一种基于教师-学生模型的端到端场景文字提取框架。在倾斜文本和不规则文本特征图存在较多背景信息干扰的问题上,提供另外的解决思路。针对第一个研究点空间注意力增强模块依赖前景背景预测的局限性,本文利用知识蒸馏的思想,在文字识别分支上构建教师-学生网络模型,教师模型通过利用前景背景的标签信息进行空间注意力增强并在训练阶段指导学生模型进行优化使其隐式学习到背景抑制的能力。在测试阶段,只需保留学生模型进行预测。实验表明,本文提出的基于教师-学生模型的端到端场景文字提取框架能够有效提升识别分支对于背景的抑制能力,在不依赖显式的注意力增强前提下,性能也能达到第一个研究点的水平。
其他文献
高校作为推动国家科技创新与发展的主要力量,肩负科学研究与培养科研人才的使命。《2021科技工作重点》中,国家强调建设高质量高校科技创新体系,为“十四五”高校科技发展开好局、起好步。高校科研事业快速发展的同时,政府会计改革逐步向成本核算推进,《事业单位成本核算基本指引》的出台是推动高校实施成本核算工作的关键点。而目前大部分高校尚未进行成本核算,无法反映科研成本的真实情况,为成本信息使用者提供有效信息
学位
随着我国经济的飞速发展,人们生活质量的逐步提高,健康问题得到了广泛关注,同时促进关于健康的相关消费需求快速增长,因此,大健康行业应运而生成为一大新兴行业。2020年新冠肺炎疫情对人类的生活带来严重影响,大大强化了人们的生命健康意识,激发出的健康需求和大健康行业对接,使人们的意识不再只局限于疾病的治疗,而是把更多的关注放在疾病的防御上。大健康行业的体外诊断(IVD)产业通过定性或定量分析方法,对生物
学位
为确保集成电路(Integrated circuits,IC)的环境可抗力和性能可靠性,IC封装技术是IC制造过程中不可或缺的关键环节。然而,在IC制造过程中由于生产技术质量潜在某些不稳定因素可能会导致IC封装表面受到污染甚至是划伤等,这些缺陷将一定程度上侵蚀影响封装表面氧化层的保护作用,进一步影响IC功能参数的稳定性及可靠性。因此,IC封装的缺陷检测是IC制造过程中十分有价值和必不可少的任务。本
学位
我国人口老龄化日益严重,跌倒检测对保障老年人的生命健康具有重要作用。准确快速识别老人的跌倒行为,有助于及时提供救治。基于计算机视觉的跌倒检测是目前的研究热点,本文也是侧重于这方面的研究。首先使用人体姿态估计算法HRNet从视频中获取骨架数据;然后对骨架数据进行预处理;最后结合改进的时空图卷积网络和双向长短时记忆网络对骨架数据进行高维特征提取,实现跌倒行为分类和识别。主要研究内容包括:针对现有公开数
学位
近年来,由于生态环境恶化及生活饮食不规律等因素,肝脏疾病的发病率不断上升。对于出现明显病变区域的肝脏疾病,如肝脏肿瘤、肝内胆管结石、肝脏囊肿等,临床上往往需要采用手术切除的治疗方法。为了尽可能精确地切除肝脏的病变区域,避免因切入血管而导致大出血,医生需要按照Couinaud分段法,沿着周围的肝脏静脉实施切除手术。所以,在手术前需要对肝脏静脉血管进行定量分析和精确建模。在临床上,肝脏静脉血管往往需要
学位
随着时代的进步,我国的教育方法也在不断地改变,中小学课堂逐渐引入了“希沃白板5”,因其优越特点也被应用于各个学科,并且“希沃白板5”因其灵便性在一定的程度上使课堂质量得到了提升,同时“希沃白板5”具有的特殊性能为广大教师解决了众多的难题,而且还提升了课堂魅力。所以,“希沃白板5”逐步替代了传统的黑板和粉笔,成为一线课堂常用的一种教学手段,可以预见的是,在未来“希沃白板5”会持续被渗透于各科目的课堂
期刊
随着计算机技术和网络的快速发展,信息传播的主要载体已逐渐被视频取代,同时视频数据量也成为了网络大数据的主体。随着高清和超高清视频的出现,视频占用空间逐渐变大,为了高效地对数据量进行压缩存储和在互联网上快速传输,视频编码技术成为了关键。因此,视频编码联合组(Joint Collaborative Team on Video Coding,JCTVC)发布了新一代高效视频编码(High Efficie
学位
在脉冲神经网络模拟的研究领域,因当前的脉冲神经网络模拟器种类繁多,导致很多情况下模拟器之间很难进行模型迁移,使得模型无法跨平台验证,而PyNN作为至今已被广泛接受的SNN模拟器前端输入接口可以为提供统一的脉冲神经网络描述方式。由于每个模拟器在处理脉冲神经网络描述的方式、模拟器的网络拓扑、脉冲神经网络数据映射的方式不一致,多数新型模拟器很难直接使用PyNN作为其前端接口,所以一般会使用py Neur
学位
能源在离散型制造企业中扮演着重要的角色,制造设备的能源数据对于企业生产效率的提升,以及生产成本的管控有着重要的参考价值。基于云计算模式下的设备能源管理系统在离散型制造车间得到广泛地应用,但是车间制造设备的迅速增加和秒级采集数据的方式情况存在,使得能源数据量呈现出海量增长的趋势,在这种情况下,基于云计算模式下的设备能源数据直接上云的处理方式,造成了网络传输拥堵、数据池存储压力增大等问题。同时,离散型
学位
战术互联网是20世纪80年代诞生的新型军事通信网络,其通过将战场环境中的传感器、武器平台以及决策者进行网络化连接,提升了部队的整体作战效能。战术互联网的构建完全依赖于作战任务需求,在网络规划时需要以部队的战术建制为骨架,兼顾节点的网络职能与各指挥层级间的具体业务传输需求,确定场景内各子网的网络连通方式,最终确保战场内业务传输的有效性。近些年来,随着网络中心战(Network Centric War
学位