基于深度学习的任意形状文本检测和识别算法研究

来源 :中国石油大学(华东) | 被引量 : 0次 | 上传用户:bvhd5467h
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然场景下任意形状文本检测和识别技术是当前计算机视觉领域的研究热点之一,在图像检索,自动翻译,自动驾驶等领域具有积极作用。由于自然场景图像背景复杂,易受光照和拍摄角度的影响,导致检测和识别困难,同时由于图像中文本是任意形状的,包括水平,倾斜及弯曲文本,进一步加大了文本检测和识别的难度。目前,这项富有挑战性的任务仍在研究探索阶段。针对任意形状文本检测和识别难的问题,本文提出了一种基于深度学习的任意形状文本检测和识别算法,主要创新点包括:(1)针对任意形状文本检测难的问题,本文在Mask Scoring R-CNN实例分割算法基础上提出了一种任意形状文本检测算法ASTDNet,利用mask的最小外接矩形表示文本。利用提出的注意力增强可变形卷积结构构造特征提取网络AAD-Res Net-FPN,增强网络的特征提取能力;针对长文本漏检问题,设定符合文本特性的锚框纵横比,提高网络召回率和精确率;针对文本定位不准确的问题,提出准确文本定位方法,新增boxiou分支,对回归结果打分,利用回归得分构建新的预测框筛选方法,选择定位更准确、mask质量更高的目标框。(2)针对不规则文本识别难的问题,提出了一种任意形状文本识别算法ASTRNet。通过渐进式文本矫正方法对不规则文本进行矫正,降低文本识别难度;识别网络为注意力序列到序列模型,使用注意力机制实现输入与输出的自动对齐。改进后的文本检测算法平均性能提高了7%左右,渐进式文本矫正方法使识别准确率提高了3%左右,降低了不规则文本对检测和识别的负面影响,提高文本识别的准确率。与现有算法相比,本文提出的算法取得了良好的效果。
其他文献
基于视频的人体行为识别是计算机视觉领域的重要研究方向之一,能够应用于智能监控、人机交互、视频内容检索等众多领域中,具有非常广泛的应用前景。在互联网技术快速发展的今天,网络视频数量呈现爆发式增长的趋势,对视频数据处理的效率与质量提出了更高的要求。由于人体行为在时间上的连续性以及动作的复杂性等问题,如何高效准确地从视频中提取人体行为的特征仍面临巨大的挑战。近年来,深度学习技术在图像分类、目标检测等任务
学位
去中心化是区块链技术的核心价值,该特性保证了区块链系统的安全性,但也为其数据管理带来了众多问题,如数据存储完整性、隐私泄露和存储性能差等。该类问题导致区块链应用在设计开发过程中代码量骤增或冗余,以至于开发效率降低。设计模式是软件开发过程中一般问题的解决方案,它的引入可以为解决区块链数据管理相关问题提供便捷的途径,对其进行服务封装更可以提高应用开发效率。论文对基于区块链的数据管理设计模式与服务进行了
学位
手绘图像检索是一种通过手绘图像检索自然图像的检索技术。允许用户通过线条随心所欲地描绘头脑中想要表达的事物以作为检索输入,这是手绘图像检索最为主要的优势之一,然而手绘图像绘制过程中的主观性会带来语义模糊问题,这同样给手绘检索带来了挑战。手绘图像缺少颜色、纹理等细节信息,一般仅包含物体轮廓,因此通过整体视角进行观察,对于手绘图像语义理解至关重要。然而,本文通过调研发现,手绘图像的整体性在现有工作中并未
学位
手绘图像作为一种新型的视觉表达方式,能够高效,灵活地描述物体的外观和结构。然而在手绘图像检索领域(Sketch Based Image Retrieval,简称SBIR)中,手绘图像则存在特征稀疏,易于形变等问题。手绘图像由一系列简单的线条构成,是一种高度稀疏的表达方式,因此传统图像检索的方法无法对手绘图像中的内容进行有效地描述;另外不同的人群绘画出的手绘草图在外形上也具有较大的差异性,这导致手绘
学位
国内大部分油田处于勘探开发中后期,易于发现的油田越来越少,探明储量以隐蔽性油藏为主,但隐蔽性油藏难以发现。有利区预测是勘探开发过程中非常关键的一步,但传统有利区预测受限于现有的理论和方法,在地质条件复杂、地震属性种类多、地震属性相关性差的情况下,地震属性与有利区类别之间的对应关系难以确定,容易产生预测过程中的多解性问题,且地质勘探人员一般仅采用2-3种常规地震属性进行预测,忽略了其它未使用地震属性
学位
石油作为我国重要能源之一,被广泛应用在交通工业、建材工业、化工工业等各大领域中,因此石油的高效开采对我国来说是非常重要的。由于我国大部分油田都属于高含蜡油田,在开采等过程中存在着结蜡现象。该现象使得油井直径变小、油杆负载变大,进而导致石油的开采效率降低、成本增加,更为严重时,导致油井停止生产等故障,降低经济效益。由此看来,如何有效的预测油井结蜡对石油高效开采具有重要研究意义和应用价值。本文采用随机
学位
近几年来,图像描述逐渐成为人工智能领域内一个新的研究热点。图像描述任务是连接计算机视觉领域与自然语言处理领域的一项基础任务,其目标是使计算机能够自动生成能够准确描述输入图像内容的自然语言语句。图像描述任务需要利用计算机视觉中的相关技术以及自然语言处理中的相关技术。图像描述任务将图像内容转换为描述图像内容的自然语言文本,可以加深对图像内容的理解。虽然编码器-解码器结构在图像描述任务中取得了广泛的应用
学位
现有常见的目标检测算法仅针对一般场景具有较好的检测性能,然而不适用于一些特定的复杂场景,例如施工图图例检测。施工图场景下的目标检测会存在如下问题:1)图例检测是一个典型的单样本学习(one-shot learning)问题,样本极少;2)需要具备高准确率和一定的实时性;3)不同施工图的图例种类不同,无法统一;4)需要自动化地完成图例提取、样本制作和模型训练;这些问题给图例检测带来了极大的挑战,如何
学位
近年来,随着油气勘探开发的深入,低渗致密等复杂油气藏、非常规油气藏油气资源越来越多,逐步成为勘探与开发的重点,也是技术攻关的难点。甜点是指储层物性相对较好、含油性较好、具有一定厚度和范围的油气聚集区。油气资源勘探的任务就是寻找这样的油气储层甜点,并准确刻画甜点储层的分布范围。复杂油气藏的甜点受控因素多而复杂,表现为相关数据信息的种类繁杂、数据量庞大,传统的地质学方法很难应对。随着信息技术的发展,油
学位
在大数据时代,互联网数据存在着数据量大,特征维度高的特点,然而在检索领域,却存在检索速度快,存储空间低的需求。哈希方法作为解决这一问题的主要方法引起了广泛关注。哈希方法通过哈希函数将高维特征映射为低维的二值哈希编码,以此提高检索速度,降低存储空间。近些年,深度学习表现出强大的特征学习能力,结合深度学习的哈希学习方法能够通过神经网络同时进行特征和哈希编码的学习,性能明显优于传统哈希方法。本文重点研究
学位