基于深度学习的场景文本检测与识别研究

来源 :中国舰船研究院 | 被引量 : 0次 | 上传用户:wnan100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着多媒体信息技术的发展,越来越多的信息以图像的形式进行传播,对图像中的文本信息进行检测与识别的相关研究也愈加受到重视。场景文本检测与识别指的是在自然场景图像中检测与识别文本信息,其在图像搜索、无人驾驶系统、智能交通系统等领域有着重要作用。传统的光学字符识别技术日趋成熟,但由于自然场景环境的复杂性、文本的多样性等因素,场景文本的检测与识别面临着很大的挑战。近年来,深度学习得到快速发展,凭借其优异的性能,越来越多的深度学习模型被应用到场景文本检测与识别中。论文对自然场景下文本检测与识别技术进行了深入研究,利用深度学习的方法,在场景文本检测方面,提出了一个基于双通道残差的文本检测算法,在场景文本识别方面,提出了一个基于Transformer的文本识别算法,具体内容如下:基于双通道残差的文本检测算法。为提高检测算法对于任意形状文本的检测鲁棒性,论文采用语义分割的思想进行文本检测,提出了一种基于双通道残差的场景文本检测算法,检测算法分为基础网络、特征融合模块、语义分割网络以及后处理四部分。在基础网络部分,为提高网络的推理速度,选择Res Net18、Mobile Net V3、Shuffle Net V2三种轻量级的卷积网络进行对比实验;在特征融合模块部分,使用特征金字塔对基础网络得到的语义信息进行特征增强和融合,然后将得到的特征图进行concat操作并连接通道注意力层与空间注意力层;在语义分割网络部分,提出了一个名为双通道残差的网络结构,对图像中的每一个像素进行分类,生成概率图;在后处理部分,将生成的概率图转换为二值图,并利用Open CV中的函数从二值图中提取文本轮廓。论文提出的检测算法最终在开源数据集ICDAR2015中获得了88.99%的准确率和80.16%的召回率以及84.35%的f-measure,在开源数据集CTW-1500中获得了83.31%的准确率和77.23%的召回率以及80.15%的f-measure。实验结果表明论文提出的检测算法对于任意形状文本具有较强的鲁棒性,相比于其他主流的检测算法,其在推理速度方面有一定的优势。基于Transformer的文本识别算法。为了提高识别算法对不定长文本的识别准确率,论文将NLP领域的Transformer网络应用到文本识别算法中。识别算法首先利用CNN将原始图片转换为序列,然后分别用LSTM和Transformer Encoder对序列进行编码,最后利用Transformer Decoder进行循环解码以获得文本信息。论文提出的识别算法在开源数据集ICDAR2013和ICDAR2015中,分别获得了91.6%和82.4%的准确率。实验结果表明Transformer结构能够有效提高场景文本识别的准确率。
其他文献
近年来,人类对淡水的过度使用、污染、开发以及过度捕捞淡水动植物已经导致淡水动物数量大幅下降,严重影响了淡水生物多样性的可持续发展。在此背景下,大卫·达钦编写《淡水生物多样性:现状、威胁和保护》呼吁人类采取保护行动来阻止和扭转这些不良趋势。本次翻译实践报告选自《淡水生物多样性:现状、威胁和保护》第三章“过度捕捞”,属于信息性文本。本报告通过总结翻译过程中遇到的问题,分析了问题产生的原因,并详细描述了
学位
2021年7月1日,在庆祝中国共产党成立100周年大会上,中共中央总书记、国家主席、中央军委主席习近平庄严宣告——经过全党全国各族人民持续奋斗,中国人民实现了第一个百年奋斗目标,在中华大地上全面建成了小康社会。《民勤县系列新闻》是兰州大学“重走西北角”实践教学活动的新闻作品。过去十年以来,师生共同感受改革开放以来农民生活的变化,他们的新闻作品都真实反映了西北地区的脱贫之路。本次翻译实践任务,旨在介
学位
虚拟化技术是实现云计算的基石,它允许在同一台物理服务器上运行多个虚拟机,每个虚拟机不仅都拥有自己的资源,而且与其他虚拟机之间具有较好的隔离性。因此,虚拟化技术在实现虚拟机隔离性的前提下,较好地提升了对物理资源的利用率。然而当部署虚拟机的物理服务器出现故障时,所有虚拟机都会宕机,进而影响虚拟机上运行的应用。因此,实现虚拟机的高可用性成为了研究热点。COLO(COarse-grained LOck-s
学位
作为世界文明古国,中国拥有源远流长的历史文化底蕴。而美食作为中华文明的组成部分更是具有举足轻重的地位。当代中国国际地位愈发提升,也面临着本国文化需要走出国门,走向世界的艰巨任务。因此,在其他文化领域蓬勃走出国门的同时,饮食文化也需要被足够重视,而美食类纪录片的翻译正是有助于中华饮食对外传播的良好途径。本文以释意派理论为指导,以纪录片《人生一串第二季》的前三集(《您几位啊》、《咱家特色》、《吃不吃辣
学位
本文用高精度数字式振荡管密度计测定了288K至318K温度范围内三元体系Li2SO4-Na2SO4-H2O和Li2SO4-K2SO4-H2O的密度。溶液的离子强度范围从0. 1到4. 5mol·kg-1,在两种混合溶液中Na2SO4和K2SO4的离子强度分数为0. 2,0. 4,0. 6和0. 8。用密度实验值拟合得到了不同温度下Pitzer离子相互作用模型混合参数θV和ψV,模型的计算值与实验值
期刊
文化旅游部数据显示,从2004年到2019年,每年参与红色旅游的人次从1.4亿增长到14.1亿。2021年是中国共产党成立100周年,红色旅游更为火热。红军长征时期,在宁夏留下了丰厚的红色资源和精神财富。如今,这些独特的红色资源已经成为宁夏全域旅游发展的新引擎。2021年寒假期间,译者受甘肃缘兆旅游汽车租赁有限公司的委托,陪同一位来自孟加拉国的留学生到宁夏南部红色旅游景点进行参观,并为其提供导游口
学位
牛肉面是民国初年由兰州名厨马保子首创的,由于其配料搭配合理、美味可口,深受兰州乃至各地人民喜爱,如今已成为甘肃的一张名片。兰州牛肉面博物馆成立于2020年11月,占地面积3000平方米,总投资8800万元,旨在传承民族饮食文化,进一步助推牛肉面产业发展。本报告是一篇汉译英交替口译实践报告。笔者于2021年1月12日受兰州大学一名中国学生的委托,为他一名来自卢旺达的外国研究生同学,在参观兰州牛肉面博
学位
长期以来,人们用思想、语言作为物种划分的重要依据,将所有飞禽走兽划进“动物”这一分类。然而,越来越多科学研究表明,大多数动物都有自己的语言。荷兰著名哲学家伊娃·迈尔于2016年出版《动物的语言》一书,以哲学、语言学、社会学、政治学探讨动物的语言与行为。本书提供了非常有价值的见解,让读者看到语言与沟通的复杂性,以及研究动物语言的可能性。本次翻译实践选自此书第二、三章内容,共计16,000词,要求60
学位
改革开放以来,我国各领域对外交往日益频繁,中外文化交流成为其中重要组成部分。相比政治、经济等国家硬实力,文化软实力具有更加重要的战略价值,提升国家文化软实力不仅是推动我国文化建设的战略重点,更是实现中华民族伟大复兴的重要前提。正如国家主席习近平所说,“文明因交流而多彩,文明因互鉴而丰富”。自“一带一路”倡议提出至今,中外文化交流取得进一步发展,对外文化传播工作取得丰硕成果。体育作为文化的重要组成部
学位
21世纪是海洋的世纪,实行海洋强国战略对世界各国具有重要的战略意义。船用汽轮机是海上浮动电站、潜航运输船、驳船式核电站的核心设备,调节阀则是调节机组负荷的关键部套。由于调节阀工况多变、工作条件恶劣,极易出现不稳定流动,导致阀头受激振动和产生高分贝噪声,严重影响设备运行的安全性和操作人员的身心健康,因此调节阀的性能一直得到广泛的关注。本文综合考虑调节阀的气动性能与噪声特性,提出并设计了一种带大窗口的
学位