基于表观与轮廓分析的自然场景任意形状文字检测

来源 :华南理工大学 | 被引量 : 0次 | 上传用户：rual7007

【摘要】

：

【作者】

：

朱一秦

【机构】

：

华南理工大学

【出处】

：

华南理工大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文字作为传递和承载信息的重要媒介,广泛地存在于人们的日常生活中。场景文字检测是模式识别和计算机视觉的重要研究方向之一,具有非常广阔的应用空间,它在例如教育、金融、医疗、无人驾驶和元宇宙等诸多领域中有着巨大的影响力。然而,场景文字检测依然面临着诸多挑战:一方面,场景文字容易受到光照、模糊、透视形变和杂乱的背景等表观因素的影响;另一方面,场景文字本身也是千变万化的,有着不同的长宽比、语言类型及轮廓形状。本文针对文本图像的表观光照问题和轮廓建模问题开展了一系列研究:（1）基于表观分析的低光增强方法:本论文针对低光环境下,文本信息难以被捕捉的问题,提出了多尺度的低光照图像增强方法。该方法能够模拟低光环境下的成像模型,同时考虑图像的结构信息和纹理信息,从而预测图像的光照分量和噪声分量,达到自适应增强低光文本图像,消除低光环境的影响,使得其中的文字信息得以显现的效果。实验表明,该方法能够增强各类文本检测算法在低光文本图像数据集上的检测效果。（2）基于轮廓分析的文本检测方法:本文针对任意形状场景文字的轮廓建模问题,提出傅里叶轮廓表征对任意形状的文本包围框进行建模。理论上,该模型可以拟合任意形状的闭合曲线。此外,还设计了傅里叶轮廓表征网络,该网络利用深度神经网络对相关特征进行提取和分类,并预测文本实例的傅里叶特征向量,再通过傅里叶逆变换形成时域的检测框,达到在自然场景中检测任意形状文本的目的。该方法在多个文本检测数据集上取得了最优的表现。（3）工程实现与性能优化:本文对所提出的方法注1进行进一步的优化,提升了算法性能同时降低了工程落地的难度。具体而言,该实现以深度学习框架Py Torch和MMOCR为基础,合理构建全自动化的处理流程,并使用快速傅里叶变换以降低算法的计算复杂度,使得本文所提出的方法在性能和速度上有了进一步提升。

其他文献

甲醇合成工艺与过程优化研究

随着化工产业的高速发展,作为当今化工产业重要的工业原料,如何提高甲醇产品的整体品质,并使其合成的产品在质量和数量上达到行业需求,已成为行业内关注的话题。本文首先分析了甲醇合成反应原理、操作流程以及合成方法，随后介绍了甲醇合成塔，最后介绍了甲醇合成工艺优化措施，包括工艺参数优化、处理设备优化以及控制措施优化，希望能给相关人士提供有效参考。

期刊

基于深度学习的人脸逆向渲染与三维重建方法研究

三维人脸因为具备空间信息,在诸如人脸识别、影视娱乐和医疗美容等很多应用场合都是重要的研究对象。三维重建的目的是二维样本重建出三维人脸,这是一个逆向的病态问题。传统的基于模板的方法利用大量三维样本作为先验知识建立人脸形变模型,但这类方法仍存在重建精度低,重建人脸真实性不足等问题。近年来,深度学习方法在三维重建领域的应用表现出优越的重建效果和重建速度。综合国内外对三维人脸重建技术的研究成果,本文课题是

学位

基于迁移学习的跨域人脸活体检测

人脸识别技术在当代科技大发展的背景下,在安全、法律、监控、金融等领域有着广泛的应用。人脸活体检测任务在确保人脸识别系统的安全、可靠方面起着重要作用,近几年引起各界广泛关注。尽管现有的人脸活体检测方法在单一场景下已经取得较好的效果,但跨场景下的人脸活体检测任务仍是一大挑战。针对此问题,本文基于迁移学习的知识,从域适应和领域泛化的角度出发对提高人脸活体检测任务在未见过的场景下泛化性能进行研究,主要工作

学位

无源域数据的无监督域适应算法研究

无监督域适应（UDA）旨在通过从数据有标签的源数据域迁移知识来学习数据无标签的目标数据域的模型。在传统的UDA设置中,假定有标签的源数据可用于域适应。随着人们对数据隐私的关注日益增加,无源域数据的无监督域适应作为一种新的UDA设定逐渐受到研究者的关注,该设定假定只有经过事先训练好的源域模型可供使用,而源域的数据仍然是私有的,不再参与域适应。然而,不是所有的场景都能提供一个事先训练好的源域模型,比如

学位

基于几何深度学习的物体位姿估计和分类

三维物体感知算法在家用机器人、工业制造、智慧物流等领域有着诸多应用。在杂乱室内场景由于物体间相互堆叠以及传感器成本的限制,物体在任意视角下采集的点云数据往往面临着稀疏、遮挡和噪声的问题,这会给深度神经网络的形状编码引入特征不一致性从而对算法的精度和鲁棒性造成负面影响。本文针对杂乱室内场景对三维物体感知算法中的位姿估计和点云分类问题展开研究。在物体六自由度位姿估计问题上,现有算法在面对严重遮挡及深度

学位

检测区域定位及弧面缺陷检测技术

弧形机壳表面缺陷检测,由于其弧面特性难以成像,背景变化较大,缺陷特征复杂,在工业检测领域是一项极具挑战的技术。目前手机弧面缺陷检测在流水线上仍是采用人工质检员进行检测的方式,人工检测缺点很明显:鲁棒性差,客观性差,存在人员疲劳问题,检测结果无法形成有效数据集供后续分析。为促进工业制造的自动化和智能化,针对人工质检的缺点,本文基于图像处理、机壳分割、深度学习等方式对弧面边框缺陷智能检测系统进行研究,

学位

大型径向流甲醇合成反应器的设计与制造

甲醇合成反应器是煤化工工艺中合成气合成甲醇的关键核心设备，随着工艺方案不同，目前该设备结构形式多样。径向流反应器是英国Davy甲醇合成工艺技术的成熟设备，该结构具有形式复杂，处理量大、反应效率高及结构紧凑等特点。本文通过文中论述观点希望对今后同类产品设计及制造提供借鉴。

期刊

大型煤制甲醇的气化和合成工艺选择

现阶段，我国工业发展速度日益加快，对甲醇的需求量日益增多，制造企业也快速涌现出来。为了促使甲醇生产制造成本有效降低，大部分企业均会采用煤制甲醇的方法，但目前其工艺技术仍未成熟，各种工艺技术类型多种多样，其适用范围和特点各不相同，只有合理选择，才可以使甲醇品质得到保证，最大化控制生产成本。对此，主要对大型煤制甲醇的气化以及合成工艺进行了探讨，以供参考。

期刊

基于正交张量约束的卷积神经网络优化方法

近年来,增加卷积神经网络的深度和宽度成为提升模型性能的一个主要方式,但随着模型越来越复杂,其面临着训练不稳定和特征冗余等问题。由于正交具有范数保持性和向量不相关性,可以降低模型训练难度和参数冗余度,其作为一种约束被广泛地运用到神经网络的优化训练中。但目前的正交约束方法多基于矩阵形式,对于卷积神经网络的高阶张量,需将其重排为二阶矩阵再优化,这一定程度上会导致空间信息损失和优化性能受限。近几年张量乘法

学位

管壳外冷-绝热复合式甲醇合成反应器在大型甲醇合成装置中的应用

介绍了管壳外冷-绝热复合式甲醇合成反应器在3 000 t/d大型甲醇合成装置中的应用情况。72 h装置性能考核结果表明：在生产负荷104%的条件下，粗甲醇中乙醇平均质量分数为0.045%,吨粗甲醇消耗新鲜气1 927 m~3（标态）,2台甲醇合成反应器催化剂床层压降为0.193 MPa,合成回路压降0.56 MPa,汽包副产蒸汽压力和流量稳定。采用双塔并联技术，实现了管壳外冷-绝热复合式甲醇合成反

期刊

基于表观与轮廓分析的自然场景任意形状文字检测

与本文相关的学术论文