基于PSENet和CRNN的自然场景文本检测识别研究

来源 :南京审计大学 | 被引量 : 0次 | 上传用户:wangxingchuang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网的发展和手机的普及,人们逐渐习惯于从现实生活的场景中获取图片并进行分享。文字作为信息表达的重要载体,有时只需要了解图片中的文字,就能对整张图片的内容有大概的认识。因此,如何从自然场景的图片中准确地提取出文字信息逐渐引起了学术界的关注。目前,基于深度学习的文本识别方法在文字行形状较规则(如矩形、四边形)的场景中已经取得较好的性能,但由于目标的表达方式较为单一,再加上模型的感受野范围有限,对于文本形状不规则或分布密集的场景,检测识别性能仍有提升的空间。针对上述问题,本文在PSENEt文本检测网络和CRNN模型的基础进行改进,具体的研究与贡献可总结为:1、对Pse Net文本检测网络进行改进。针对卷积网络感受野有限而导致大文本实例区域检测不全的问题,在特征提取网络Res Net50的结构中集成Res2Net模块,通过调整尺度维数的取值,使模型获取不同尺度的感受野,更好地提取不规则文本的特征。对于文本分布密集使检测结果出现黏连的情况,通过GCN模块调整特征融合网络的结构,使其近似于全卷积网络,从而避免丢失位置信息;另外,BR模块可对文本区域的边界进行精修,以更好的实现文本和背景以及文本之间相分离的目标。对于损失函数,考虑到后处理算法的特点,为使预测结果彼此分隔且更接近各相应文本区域的完整形状,增加具有最大最小尺度文本内核损失项的系数权重。在实验部分,本文提出的改进方法在通用文本检测数据集SCUT-CTW1500、ICDAR2015以及Total-Text上皆取得了超过原始算法的检测性能。2、文本识别部分在CRNN的基础上进行优化改进。为了更好地提取文本区域的空间特征,结合文本形状多近似矩形的特点,在CNN部分,调整卷积核和池化形状的同时集成Res2Net模块;将空间特征转化为特征向量后,考虑到文本上下文之间的语义信息,在RNN部分选择使用三层双向长短时记忆网络提取语义特征,以更好的对文本进行识别;得到的输出经过全连接层和softmax层后,结合CTC机制处理识别中重复字符和空字符的问题,并对文本信息进行预测。通过对比实验和结果分析,本文提出的文本识别方法对于识别性能有一定的提升作用。
其他文献
近年来,许多大规模的机器学习问题得到了越来越多的关注并取得了飞速的发展,如计算机视觉、自然语言处理、推荐系统等。这些成功的背后离不开大规模的数据集和机器学习模型,然而大规模的数据集和模型无法在内存和计算资源有限的单机上进行存储和训练。这个富有挑战性的问题是通过分布式机器学习解决的,即利用多台机器来完成原本在单机上的训练任务。对于强大的二元分类工具支持向量机(SVM),在高维空间中,本文提出了一类新
学位
中国保险行业进入新世纪后,得到了快速发展,与之相伴的是保险欺诈也日益猖獗。保险欺诈在保险市场的泛滥会造成保险公司设计更高的保费、付出更高额的赔付,同时运营收益却在下降。因为保险公司经常把保险欺诈的损失通过保费设计转嫁到投保人身上,最终保险欺诈的损失由全社会买单。因此保险欺诈的存在对保险行业的良性运行发展极为不利,遏制保险欺诈的泛滥,不仅有利于保险公司正常经营,也有利于社会金融秩序的稳固,对经济发展
学位
中国作为当今世界第二大经济体,股票金融市场也在不断发展与完善,股票市场作为实体经济的衍生物,容易受到实体经济的影响而大幅度波动,故研究宏观经济变量指标对股票市场的影响,有利于为政府当局调控宏观经济政策提供建议,保证我国股票市场的健康发展。文章首先基于低频数据下探究股票数据和宏观经济变量数据之间是否存在相关性,选用股票月度数据与宏观经济变量进行Johansen协整检验、Granger因果检验等,选用
学位
当前我国已进入高质量发展阶段,长三角城市群作为我国双循环新发展格局的重要承载地,其经济规模体量大,对外开放程度高、科技创新能力强,是最有能力率先实现现代化的区域之一。推动长三角高质量发展对于我国稳步推进第二个百年奋斗目标意义重大。因此,当前需要扎实推进长三角高质量发展,为全国高质量发展作出榜样、提供参考。基于此,本文在分析长三角高质量发展内涵的基础上,实证研究了长三角高质量发展的水平、空间分布特征
学位
进入新世纪以来,中国大规模投资、建设和运营高速铁路,阔步迈入“高铁时代”,“八纵八横”高铁网络基本形成,在改变中国交通格局和民众出行方式的同时,也影响了人口与产业布局,从而必然对城市碳排放产生影响。中国政府承诺二氧化碳排放于2030年前达到峰值,争取2060年前实现碳中和。在上述背景下,分析高铁开通对中国城市碳排放的影响,厘清影响机制,探讨高铁开通的空间技术外溢效应,并对城市间异质性进行研究,具有
学位
变化检测是遥感图像处理的热点问题,高光谱图像因其极高的光谱分辨率显著提升了变化检测的精确程度。利用多时相的遥感影像数据进行变化检测在灾害评估、地形变化分析、城市变化检测分析等领域有着重要应用价值。然而,目前一些适用于低维多光谱图像的传统变化检测方法无法适应高光谱复杂的高维特征,并且高光谱图像的光谱信息中包含噪声、信息冗余、低空间分辨率使得单一挖掘光谱信息进行变化检测的效果不佳。因此,将高光谱的光谱
学位
随着社交网络的迅猛发展,互联网上的用户评论和观点激增,数据量呈爆炸式增涨。这些隐含用户情感倾向的文本在产品推荐、舆情监控以及信息预测等方面具有重要意义。基于对当前情感分析方法的总结分析,本文提出了两种情感分析方法:一是针对现有情感词典和朴素贝叶斯算法的缺陷,提出一种结合情感词典和改进朴素贝叶斯的情感分析方法SD-PCANBC,以获取更好的分类效果;二是基于预训练模型以及Attention机制,针对
学位
经典粗糙集理论是波兰科学家Pawlak于1982年所提出的一种处理不确定性的数学工具,因其自身具有无需提供数据集合之外任何先验信息的特性,至今已在各方面得到了广泛的应用。然而,经典粗糙集将信息系统中的数据视为没有任何语义的符号,而且基于等价关系的上下近似要求也过于严格。为了克服这些不足,学者们讨论建立了众多粗糙集拓展模型。考虑到信息系统中的属性可能具有不同层次,研究人员提出了多尺度的概念,构建了多
学位
图像分割作为图像处理中的基础操作,一直受到图像研究者们的关注。多年以来,图像分割方法层出不穷,但是到目前为止,图像分割技术仍然没有形成通用的理论或方法。这主要是因为,近年来不断涌现的高科技成像技术使获取的图像变得更加复杂、细节更加丰富,也给图像处理研究带来了巨大挑战。作为图像分割领域重要的应用之一,核磁共振(MR)图像分割具有十分重要的地位。随着医学诊疗水平的不断提高,核磁共振成像(MRI)技术已
学位
公共政策审计以国家政策为对象,与国家经济安全和人民切身利益直接相关。公共政策贯彻落实的实践表明,我国公共政策落实过程中的执行偏差普遍存在,审计资源紧缺、审计力量薄弱,虽然己经取得了初步成效,但还存在许多审计盲区,要消除这些盲区,应积极创新审计技术、壮大审计队伍、强化审计力量。2018年5月,在中央审计委员会第一次会议上,习近平总书记强调,一方面要发挥内部审计与社会审计的力量,使其与国家审计一起形成
学位