面向复杂版面文档图像的高精度文字检测

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:lishibo13514244774
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在如今信息化的大数据时代,人们利用计算机视觉技术来获取文档中的信息,从而对文档进行数字化的处理、存储、组织与分析。文字检测通常是文档数字化的首要步骤,也是后续文本识别、编辑和检索等任务的重要基础。本文详细介绍了文字检测和相关目标检测领域的发展历程和主流算法,深入分析现有方法在复杂版面文档图像上文字检测的局限性。虽然大多主流算法在自然场景文本检测上已经达到较好的性能,但在段落多栏布局,以及文本密集排布、双列夹注、极端尺度和旋转倾斜等复杂版面的文档上,检测不准确且容易漏检文本。本文围绕复杂版面文档图像的文字检测展开深入的分析与研究,并结合前沿主流的方法,致力于提高检测算法的精确度。本文的主要研究工作和创新如下:(1)针对古籍文档图像的单字检测中,在较高的交并比(Intersection over Union,Io U)阈值下精度不足的问题,本文提出了一种新颖的基于强化学习(Reinforcement Learning,RL)的古籍文档高精度文字检测方法。本文将文字检测边界框的精调建模为离散的马尔科夫决策过程,并通过RL模型进行逐步微调,使得文字区域更加紧密。本文通过结合文本独有的特点,设计了基于RL的文字检测框架,包括全卷积主干网络和奖励函数等。实验表明本文方法可有效改善多种检测方法在高Io U阈值下的检测精度。(2)针对多种复杂版面文档图像的文字检测,本文提出一种基于集合预测(Set Prediction)的文档高精度文字检测新方法。本文通过设置少量可学习的查询向量(Query),并结合文本独有的特点构造基于自注意力机制的编码器(Transformer)以及共享多层感知器等改进,实现多方向文本行的检测和分割。此外,本文方法采用级联的结构迭代优化检测结果,在文本行尺度变化大、密集和倾斜等情况下保持较高的检测精度。实验表明,本文方法在多种复杂版面文档以及自然场景等多个数据集都取得较好的性能。同时,本文对比分析多种主流检测算法,可以给相关领域研究人员和工程人员提供一些参考。
其他文献
弧形机壳表面缺陷检测,由于其弧面特性难以成像,背景变化较大,缺陷特征复杂,在工业检测领域是一项极具挑战的技术。目前手机弧面缺陷检测在流水线上仍是采用人工质检员进行检测的方式,人工检测缺点很明显:鲁棒性差,客观性差,存在人员疲劳问题,检测结果无法形成有效数据集供后续分析。为促进工业制造的自动化和智能化,针对人工质检的缺点,本文基于图像处理、机壳分割、深度学习等方式对弧面边框缺陷智能检测系统进行研究,
学位
甲醇合成反应器是煤化工工艺中合成气合成甲醇的关键核心设备,随着工艺方案不同,目前该设备结构形式多样。径向流反应器是英国Davy甲醇合成工艺技术的成熟设备,该结构具有形式复杂,处理量大、反应效率高及结构紧凑等特点。本文通过文中论述观点希望对今后同类产品设计及制造提供借鉴。
期刊
现阶段,我国工业发展速度日益加快,对甲醇的需求量日益增多,制造企业也快速涌现出来。为了促使甲醇生产制造成本有效降低,大部分企业均会采用煤制甲醇的方法,但目前其工艺技术仍未成熟,各种工艺技术类型多种多样,其适用范围和特点各不相同,只有合理选择,才可以使甲醇品质得到保证,最大化控制生产成本。对此,主要对大型煤制甲醇的气化以及合成工艺进行了探讨,以供参考。
期刊
近年来,增加卷积神经网络的深度和宽度成为提升模型性能的一个主要方式,但随着模型越来越复杂,其面临着训练不稳定和特征冗余等问题。由于正交具有范数保持性和向量不相关性,可以降低模型训练难度和参数冗余度,其作为一种约束被广泛地运用到神经网络的优化训练中。但目前的正交约束方法多基于矩阵形式,对于卷积神经网络的高阶张量,需将其重排为二阶矩阵再优化,这一定程度上会导致空间信息损失和优化性能受限。近几年张量乘法
学位
介绍了管壳外冷-绝热复合式甲醇合成反应器在3 000 t/d大型甲醇合成装置中的应用情况。72 h装置性能考核结果表明:在生产负荷104%的条件下,粗甲醇中乙醇平均质量分数为0.045%,吨粗甲醇消耗新鲜气1 927 m~3(标态),2台甲醇合成反应器催化剂床层压降为0.193 MPa,合成回路压降0.56 MPa,汽包副产蒸汽压力和流量稳定。采用双塔并联技术,实现了管壳外冷-绝热复合式甲醇合成反
期刊
文字作为传递和承载信息的重要媒介,广泛地存在于人们的日常生活中。场景文字检测是模式识别和计算机视觉的重要研究方向之一,具有非常广阔的应用空间,它在例如教育、金融、医疗、无人驾驶和元宇宙等诸多领域中有着巨大的影响力。然而,场景文字检测依然面临着诸多挑战:一方面,场景文字容易受到光照、模糊、透视形变和杂乱的背景等表观因素的影响;另一方面,场景文字本身也是千变万化的,有着不同的长宽比、语言类型及轮廓形状
学位
认知能力是指人脑加工、储存和提取信息的能力,是人们成功完成活动最重要的心理条件。准确有效的认知能力评估,对疾病诊疗、教育评价、特殊行业人员选拔等具有重要的应用价值。虚拟现实具有高沉浸感、多感知性、强交互性等特点,为认知能力评估方法的扩展提供了新的可能。将虚拟现实技术应用于认知能力评估已成为当前的研究热点。目前认知能力评估研究中存在以下问题和难点:(1)传统认知能力评估方法的任务脱离真实生活场景,沉
学位
人类的生活环境是一个三维的世界。为了实现人工智能(AI)的目标,使机器具有感知和理解三维世界的能力是非常重要的。近年来,三维数据采集设备的快速发展,如Li DAR、Microsoft Kinect、Intel Real Sence,促进了体感游戏、虚拟现实(VR)、增强现实(AR)、自动驾驶的应用,同时3D计算机视觉的研究被广泛关注,特别是3D点云分类和分割、3D目标检测、物体表面重建等。然而,3
学位
人脸识别系统具有便捷、可交互、非侵入性等优点,被广泛应用于日常生活,但它容易受低成本的欺诈攻击如视频重放、相片攻击等的威胁。因此,人脸欺诈/反欺骗检测是保障人脸识别系统安全的必要前提。现有人脸欺诈检测算法虽然库内性能大多优良,但由于目标域和源域的数据分布差异,跨库泛化性能明显下降。此外,现有人脸识别系统较少考虑新型对抗攻击,这种安全隐患将影响人脸识别系统的可靠性。为此,本文从提高人脸欺诈检测算法泛
学位
目的 观察小剂量艾司氯胺酮对老年患者腹腔镜结肠癌手术中血流动力学、应激反应及术后恢复质量的影响。方法 选取2021年1月1日至2022年3月31日唐山市工人医院择期行气管插管全身麻醉下腹腔镜结肠癌手术的老年患者,按随机数字表法分为观察组和对照组。两组麻醉方式均为静吸复合的全身麻醉。麻醉诱导时,观察组静脉输注艾司氯胺酮0.2 mg/kg、舒芬太尼0.2~0.4μg/kg、咪达唑仑0.03~0.06
期刊