基于表征学习的不规则场景文本检测与识别研究及系统实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:wsw12345ok
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不规则自然场景文本检测与识别在机器导航、图像搜索、场景理解、即时翻译和工业自动化等相关领域有着广泛的应用前景,同时也是计算机视觉领域的关键技术,近年来已成为热门的研究方向。典型文本识别系统的处理流程为:首先通过文本检测算法定位图像中的文本实例,然后通过文本识别算法对文本实例进行识别。其中文本检测算法的输入为高分辨率的场景图片,其检测的准确度和处理速度对后续识别性能的提升有重要影响,而文本识别算法需要面对多样的文本数据,识别算法的泛化能力受到挑战。因此,当前的研究难点主要有:(1)文本检测网络的计算效率低,难以兼顾速度和准确度;(2)样本数据不平衡导致的文本识别算法在复杂场景下的识别鲁棒性较差;(3)不规则的文本排布给文本识别的泛化性能带来挑战。以上难点限制了文本识别系统的性能,阻碍了相关算法在实际场景中的应用。针对存在的问题,本论文围绕文本检测网络、文本表征学习以及文本矫正技术展开研究,工作内容包含以下几个方面:1.提出了基于循环渐近分割的文本检测算法。关于现有文本检测方法难以平衡算法效率与检测准确度的问题,主要原因在于检测模型学习文本表征的效率一般,近年的文本检测方法使用特征金字塔网络来多尺度地描述文本的空间语义,增强对目标细节的检测,但这些结构忽略了学习效率的问题,导致网络的计算成本存在冗余。针对该问题本文提出一种基于循环渐近分割的文本检测算法,首先,在特征金字塔网络的前向传播过程中引入渐近约束优化机制保证语义特征的增强趋势,然后,对网络的中间层特征施加语义约束机制,指导网络提取更准确的文本语义。经过实验验证,所提出的文本检测算法可以在参数量、计算量基本不变的条件下提高检测准确度2.0%,对比当前主流的文本检测网络更有利于平衡算法的效率和准确度,在公开数据库上的文本检测性能超过了多数近年方法。2.提出了鲁棒性表征学习的文本识别算法。针对复杂场景下的文本识别泛化性差问题,现有数据中存在较严重的样本不均衡现象,各类字符出现频次差别较大,模型难以学习代表性的文本表征,识别准确率下降。为此,本文首先提出基于坐标编码的文本表征网络,优化空间语义,增强模型的文本笔画描述能力;然后提出基于编解码器的表征学习目标函数,引入类别间的相关性信息,约束特征空间的类内一致性和类间区分性,可缓解样本不平衡问题,学习有代表性的文本表征,增强识别鲁棒性。在公开数据库上的实验表明,所提出的方法提高了简单场景下的平均识别准确率1.0%、复杂场景下的平均识别准确率3.0%,优于其他近年的文本识别方法。3.提出了基于孪生网络的不规则文本矫正算法。关于不规则文本的识别问题,本论文分析得到现有训练数据缺少不规则文本样本,使得不规则文本识别算法的泛化性能较差,难以矫正严重形变的文本,识别准确率下降。本论文改进了文本矫正网络的训练方式,提出基于孪生网络的文本矫正算法。首先使用随机仿射变换增广训练数据,然后使用孪生网络从变换前后的图片中学习仿射不变的文本矫正能力,增强不规则文本矫正和识别的泛化性能,可以矫正和识别严重弯曲的和竖直的文本,提高不规则文本的平均识别准确率2.8%。在公开数据库上的对比实验表明,相比近年的不规则文本识别算法,所提出的算法达到了有竞争力的不规则文本识别性能。通过上述研究,本文构建了一套完整的不规则场景文本检测与识别系统,具有高效的文本检测能力,以及鲁棒的文本识别、不规则文本矫正能力,并构建了可行的文本检测识别演示系统。
其他文献
随着互联网、物联网技术的快速发展,各种新型业务,如语音识别、虚拟现实/增强现实等不断涌现,网络边缘的数据流量呈现爆炸式增长。传统云计算在应对这些时延敏感、密集计算应用时逐渐显现出不足。为解决上述问题,移动边缘计算(Mobile Edge Computing,MEC)作为一种全新的解决方案出现,通过将计算能力下沉至网络边缘,实现就近响应来缩短响应时间与缓解网络拥塞。MEC服务器有限的计算资源在应对海
近年来InAs/GaSb二类超晶格材料成为红外探测器的主要材料,InAs/GaSb二类超晶格形成的异质结是一种间断的排列,当吸收垂直入射红外辐射后,InAs中的电子和GaSb中的空穴能够隧穿实现带间跃迁,从而形成微带,导带在InAs层电子波函数交叠,价带在GaSb层空穴波函数交叠,通过改变InAs/GaSb二类超晶格的层厚比例和周期数量,其等效能带范围可以在0.2 eV内连续变化,能够实现长波红外
为了对海量网络数据中的知识进行有效地组织和表达,知识图谱应运而生。然而,知识图谱往往存在稀疏和不完备的问题,影响着其在下游任务中的实际效用。事实上,许多缺失的知识,可以在知识图谱中已有知识的基础上挖掘推理出来。作为知识图谱补全的重要手段,知识图谱推理技术逐渐成为学术界和工业界所关注的热点。知识图谱推理技术旨在从知识图谱中已有的知识出发,通过计算机推理来挖掘其中潜在的隐含知识。一般地,仅从知识图谱中
射频识别(radio frequency identification,RFID)技术是一种重要的物联网技术,它通过标签吸收并反射阅读器发送的电磁波能量进行标签与阅读器的数据交流。与传统的自动识别系统相比,RFID具有读取距离较远,穿透能力强,处理效率高,存储容量大、可重复利用、可以识别高速运动中的物体等特点,被广泛的应用于工业、商业自动化以及交通运输控制管理等多个领域。RFID系统能够通过标签防
近年来,区块链成为了互联网领域的研究热点。联盟链有着安全性、可追溯性、不可篡改性等优势,且相比公链来说其共识算法通常算力浪费少,有着广泛的应用场景。但现有的联盟链中通常每个节点都会存储整个链上的所有数据,当数据产生速度较快时,会导致联盟链中各个节点需要存储的数据飞速增长,造成高昂的存储代价。针对联盟链存储代价高昂的问题,本文设计了一种新的分布式存储机制,其通过将新生成的区块按照合理的存储分配算法分
随着时代发展变革,计算机技术发展势如破竹,人工智能就是典型例证。机器定理证明是人工智能的重要内容,其起源可追至莱布尼茨时代,涉及计算机、数学、逻辑学等多个学科。自动定理证明技术旨在实现计算机自动推理证明,随着时间推移,交互式证明工具也称证明助手应运而生。Coq是一种国际上主流的交互式证明工具,依赖其严谨性、可读性、可信性等特点,基于计算机语言Gallina,合法命名与代码规范实现数学定理的证明或系
近年来随着信息化的不断发展,网络攻防对抗形势越演愈烈,网络安全事件也层出不穷。在国家政策和网络安全形势推动下,网络安全产业近年来取得了快速发展。但网络安全项目属前沿领域,技术复杂度较高,存在较多不确定因素,因此在网络安全项目中引入风险管理研究尤为重要。本文以风险管理理论为基础,结合项目实际情况针对G公司网络安全态势感知项目进行风险管理研究。首先对项目管理理论以及网络安全项目风险管理特点进行了分析阐
6LoWPAN 网络是进入IPv6时代后物联网中的重要组成部分,在万物互联中发挥着重要的作用,是连接受限制的物联网和传统IP网络之间的重要技术。在以往的6LoWPAN传感网络研究和应用场景中主要存在两类问题。首先,传感器测量的数据往往具有很大的分析价值,但如果数据被泄露给不可信的机构,这些非法机构有可能会依据自己手中的背景知识来非法利用传感数据进行分析,从而会造成隐私泄露。为此,传感网络中的数据隐
随着网络规模的不断扩大,网络性能测量平台需要改进探针的调度方法,以实现对大规模网络性能状况的测量。然而,如果选择所有探针对目标网络执行网络测量,不仅会给网络带来大规模的网络测量流量,而且还会给网络测量平台及探针带来较高的消耗。此外,探针的状态也会对网络测量结果产生很大的影响,特别是探针的负载。当探针的负载超过一定限度后,可能会发生宕机等故障导致网络测量准确度降低。然而,在现有的网络性能测量中,探针
在当今信息科技飞速发展的时代,人工智能已经广泛应用到了教育领域。在青少年信息化教育中,基于Scratch的块编程越来越受到老师和学生的青睐。利用Scratch工具创作诗歌作品,能够让学生掌握Scratch编程技能,同时又提升语文学习兴趣。在目前的Scratch平台上,并没有为诗歌创作提供相关扩展块,从而使得Scratch诗歌作品创作具有局限性。因此在Scratch平台中,利用深度学习相关技术设计与