基于改进DRRG算法的自然场景文本定位与识别

来源 :哈尔滨理工大学 | 被引量 : 1次 | 上传用户:hlly369
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着21世纪信息化时代的来临,图片日益成为信息传递最直接、最快捷的方式,为了更快速准确地获取图片中的信息,文本定位与识别就变得尤为重要。本文主要通过对近年来较为优秀的文本定位算法做对比研究,针对自然场景图像文本普遍存在的特点,选定文本定位效果较为突出的任意形状文本检测算法DRRG(Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection,DRRG)及识别算法CRNN(An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition,CRNN)对其进行改进。论文的主要研究内容如下:针对DRRG文本定位算法对复杂背景图像文本以及尺度变化较大的文本检出率不足的情况,将DRRG文本定位算法中的基础网络由VGG16替换为Res Net-50网络,Res Net-50网络相比VGG16层数更深,计算量较小,对特征提取更为抽象;利用特征融合模块(Feature Fusion Module,FFM)对DRRG算法主网络部分的特征输出结果进行层级间融合,减少特征提取过程中底层特征的丢失,进而实现特征融合过程中获取信息的全面性,并在融合后加入了双向长短时记忆网络(Bi-directional Long Short-Term Memory,BLSTM)网络,提供上下文的序列信息。实验数据证明该改进算法进一步提高了复杂背景文本定位以及尺度变化较大文本定位的精确率和召回率。针对DRRG文本定位算法对小文本以及密集型文本信息漏检、错检的问题,在DRRG主干网络的特征提取分支的卷积层中嵌入卷积注意力机制模块(Convolutional Block Attention Module,CBAM),对信息进行精细化分配和处理,关注重要特征并抑制不重要特征,进而改善文本的提取效果。实验表明对于小文本较多以及含有密集型文本的场景图像文本定位中,改进算法较原算法有效提高了复杂背景文本定位的各项指标。采用基于序列的文本识别方法完成文本定位后的结果验证工作。论文研究了一种改进的CRNN网络结构,将结构中的BLSTM改进为延迟控制双向长短时记忆网络(Latency-Controlled Bidirectional Long Short-Term Memory,LC-BLSTM)网络,有效改善了对于不定长文本序列识别效果差的缺点。实验结果表明,该模型相比于传统模型在自然场景文本识别的准确率和速度上均有所提升。
其他文献
视频监控是安全监控的一种有效方式,尤其是社会治安方面,因为视频监控的普及,给人民的生活带来了很大的安全保障。然而,随着监控摄像头使用数量的增多,导致监控数据出现海量增长,现有的智能监控行人重识别技术对于图像中行人存在局部遮挡或重叠的情况,识别准确率低。本文针对这一问题,通过研究实例分割算法(Mask RCNN)在行人重识别任务中的应用,分析了Mask RCNN算法对解决行人局部遮挡或重叠问题的有效
学位
随着对石墨烯材料与MEMS工艺研究的不断深入,其在气体传感器领域的应用潜力也被逐步发掘。目前以石墨烯气敏材料为基础,结合MEMS工艺设计制造的新型气体传感器,因兼具石墨烯材料的低反应温度、高气敏性能与MEMS芯片的低功耗、高灵敏度等优势而有着较大的研究价值。本文基于上述背景,制备并研究一种双金属氧化物修饰的石墨烯基MEMS气体传感器。将双金属氧化物Cu O/In2O3修饰于还原氧化石墨烯r GO表
学位
随着时代进步,电路集成规模越来越大,电路中可检测节点减少。非线性模拟电路中存在着容差、软故障等复杂情况,这些问题导致对非线性模拟电路的故障诊断变得更加困难。由于多输入多输出(MIMO)非线性模拟电路的复杂性,其软故障模型的建立相对困难。目前关于MIMO非线性模拟电路故障诊断方法大部分还停留在理论阶段,在实际应用中需要进一步完善。本文针对MIMO非线性模拟电路故障诊断理论以及关键技术进行研究,目的是
学位
树脂镜片在生产加工过程中难免会产生一些缺陷,需要对缺陷进行检测,以把控产品质量。目前在制造业中,对树脂镜片缺陷检测方法仍以人工检测为主,不能满足自动化发展的需要。现有基于传统机器学习和图像处理的缺陷检测方法,存在泛化能力差、检测速度慢等问题,难以得到实际应用。本文基于上述课题背景,研究一种基于YOLO的树脂镜片缺陷检测方法。本文主要工作内容如下:首先分析树脂镜片缺陷类别及形态,确定基于卷积神经网络
学位
我国经济发展面临的资源约束日益严峻,企业施行闭环供应链运作管理推动循环经济发展显得尤为重要。同时现代消费者责任意识越发强烈且敏感,切实履行企业社会责任(Corporate Social Responsibility,简称CSR)的企业将成为消费者的首选。如此外部环境下探讨成员企业如何进行CSR投入提高闭环供应链的盈利性具有一定的现实意义。现实中成员企业在逐利的过程中并非是完全理性的经济人,决策者们
学位
目的 总结并分析延胡索酸水合酶(FH)缺陷型肾细胞癌的临床资料,提高对其诊断、治疗及预后的认知。方法 回顾性分析郑州大学第一附属医院2019年3月2021年12月收治的12例FH缺陷型肾癌的一般临床资料。总结分析患者的影像学、病理学、基因检测、手术治疗和辅助治疗、随访结果等信息。结果 12例FH缺陷型肾癌均经病理或基因检测确诊,1例并发子宫肌瘤,3例并发肾囊肿。4例子宫肌瘤家族史,2例肾癌家族史。
期刊
新兴产业科技创新活动集中,发展速度快,经济带动性强,对社会影响深远,是产业演进、升级的有力推手。新兴产业创新呈现出创新资源分布不均、创新行为差异大,创新需求复杂多样等特点,对新兴产业创新服务提出了更高要求。知识是创新服务的核心要素,贯穿渗透整个创新服务过程,有效的知识转移不仅是保证创新服务质量的基础,还是新兴产业进行知识创新和知识应用,提升产业创新能力的关键。在此背景下,深入剖析新兴产业创新服务知
学位
微电流检测技术在诸多领域都有重要应用,并且推动着微弱信号检测领域的发展。本文通过对微电流检测理论以及数字降噪方法进行研究,设计实用电路并在核心处理器中嵌入降噪方法以实现对pA级电流的检测。通过对取样电阻型和负反馈型电流放大电路实现微电流检测的优缺点分析得知,负反馈电流放大电路更适用于微电流检测;通过对反馈电路中的阻值对电路噪声的影响进行理论及仿真分析,证明了大电阻引入的电路噪声更小;通过对电路的频
学位
滚动轴承作为旋转机械的关键部件被广泛地应用在工业等相关领域,但是由于其工作环境复杂,不同负载之间的数据分布差异较大,获取有效的数据比较困难,且传统的诊断方法存在一定的缺陷。因此,利用少量的有效数据构建变负载下故障诊断模型具有重要的研究意义。本文以深度神经网络和原型域适应为研究核心,构建滚动轴承故障诊断模型,利用少量带标记数据完成变负载下滚动轴承故障诊断任务。针对传统的智能诊断方法需要大量带标记数据
学位
在核磁共振成像(Magnetic Resonance Imaging,MRI)过程中,由于需要逐点逐行的获得数据,这使得患者需要接受长时间扫描,可能会由于运动带来伪影噪声。压缩感知(Compressed Sensing,CS)理论的提出,使得短时、高质量的MRI图像重建变得可能。传统凸优化算法需要手动设置优化参数、测量矩阵,对不同种类图像适应性较差;常规深度学习网络又对K空间数据中的特征信息提取不
学位