基于U-Net的低质量文本图像二值化方法研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户：guohiahong9999

【摘要】

：

【作者】

：

何国昌

【机构】

：

武汉理工大学

【出处】

：

武汉理工大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本图像二值化是文本分析和识别的重要预处理步骤之一,目的是将文本图像中前景文本与复杂背景分开。而文本图像在存储过程中会受各种物理因素影响而发生退化,例如产生页面污点、纸张破损、背景渗透等,形成低质量的文本图像,这些复杂的退化因素为文本图像二值化带来极大挑战。因此,实现低质量文本图像的精确二值化任务具有重要的研究意义和应用价值,本文研究的主要内容与工作如下:（1）针对低质量文本图像中存在大量与文字笔画糅杂在一起的背景干扰噪声使其二值化结果中包含较多误判笔画信息的问题,提出改进瓶颈层（bottleneck）的U-Net模型用于低质量文本图像二值化。对传统U-Net的瓶颈层结构进行重新设计,根据低质量文本图像的特点,给出三种改进的U-Net瓶颈层设计方案。通过在U-Net瓶颈层中融合注意力机制和全局上下文模块等方式,使模型更加关注图像中的文字目标区域,同时利用全局上下文信息减少对文字笔画的误判,提升低质量文本图像二值化的精度。实验结果表明,本文提出的三种瓶颈层设计方案均比传统U-Net的瓶颈层方案有更佳的二值化效果,二值化结果中文字笔画与背景的区分更精确,其中瓶颈层中融合全局上下文模块的U-Net二值化性能最突出。（2）针对传统U-Net缺乏对中间卷积层特征信息的利用而忽略不同规模的全局上下文信息,导致文本图像二值化结果中文字域与背景域的划分缺乏整体和局部关联性考虑的问题,提出一种基于多尺度特征预测融合与注意力机制U-Net的低质量文本图像二值化方法。采用多尺度特征预测融合的设计思路聚合由多个上采样块输出层的特征作为U-Net的解码输出以利用不同尺度的全局信息,并将聚合后的特征矩阵经过一个重新设计的双重注意力模块处理得到最终的特征图。实验结果表明,提出的方法更充分地利用了图像不同尺度的全局信息,实现更精准的二值化分割任务。（3）针对低质量文本图像背景噪声复杂且受限于数据集和网络规模大小使得图像深层信息难获取,最终二值化结果中文字的形状、轮廓等特征表达不足而导致二值化效果不佳的问题,提出一种基于新编码-解码U-Net的低质量文本图像二值化方法。采用适合小数据集的分割网络U-Net为模型骨干,选择Image Net上预训练好的VGG16为U-Net的编码器,在解码器各上采样块中分别引入残差跳跃连接和密集跳跃连接,并适当增加上采样块卷积层数,使上采样层更好地恢复文本图像深层特征。提出的方法不仅使模型具有更好的深层特征还原能力,而且提升了模型的训练速度、收敛速度和泛化能力,从而提高低质量文本图像二值化效果。将（1）、（2）、（3）中的改进融合,构建适用于低质量文本图像二值化的U-Net网络模型,给出基于改进U-Net的低质量文本图像二值化方法。使用该方法分别在DIBCO 2016-2018数据集,以及ICFHR提供的两个Palm Leaf Manuscripts数据集上进行二值化综合实验。实验结果表明,提出的方法在各数据集上均取得了突出的二值化成绩,在多项指标上达到了目前领先水平。

其他文献

基于深度学习的施工安全网完好性检测与识别及风险评价研究

建设工程的稳步发展离不开施工安全管理的保障,在安全管理工作中,对施工现场安全网的完好性进行动态检测是工地安全保障的基础。结合检测结果综合评价施工现场存在的风险,对安全管理工作有积极的推进作用。现有的施工安全网完好性检测主要依赖人工巡查,无法保证实时性,而且人力资源开销较大,还可能存在漏检问题。针对上述问题,本文研究利用深度学习方法实时检测安全网的完好性以及破损分类,并构建基于安全网完好性检测的施工

学位

企业经营管理视角下数字化转型的发展研究

本文旨在探讨数字化转型对企业经营管理的影响，并提出相应的实施策略和管理模式。通过文献综述和案例分析，对数字化转型的概念、特点以及对企业经营管理的影响进行了深入探讨，并分析了数字化转型的实践案例，总结了数字化转型的成功要素和经验。同时结合实践经验，提出了数字化转型的实施策略和管理模式。研究表明，数字化转型对企业经营管理产生了深刻影响，可以提高企业的生产效率和市场竞争力，但也带来了一系列挑战。

期刊

面向异构计算的脉冲神经网络研究

相比于其他传统人工神经网络的计算单元,通过对生物大脑中的神经系统信息进行模拟,脉冲神经网络所模拟的神经元在结构与其工作机制等各个方面更加具有仿生性,被誉为“第三代人工神经网络”。自脉冲神经网络理论首次提出以来,对其合理实现的研究和实践成为了一个热门课题,脉冲神经网络模型的实现方案主要分为软件模拟仿真和硬件电路实现两种思路,软件模拟具有易于开发、灵活性高的优点,但是脉冲神经元更加复杂,在模拟大规模网

学位

面向小样本的短文本分类方法研究

随着社交网络的迅速发展,每天产生数以百万计的短文本,其中包含兴趣、意图等各种有价值的用户相关信息。因此,短文本信息挖掘与分类具有重要的实际应用意义。然而,短文本具有特征稀疏、噪声高等特点,使得很多机器学习方法应用于短文本分类时出现性能下降问题,同时,许多神经网络模型在训练时依赖大量标记样本,但是现实中,获得大量标记数据十分困难。基于以上原因,小样本条件下的短文本分类成为自然语言处理领域的研究热点之

学位

数字化转型、动态能力与创新绩效

大力推动数字化转型是建设制造强国的重大战略举措，数字化转型成为企业提升创新绩效的有效途径。基于动态能力视角，以2007—2021年沪、深A股上市公司为研究对象，运用Heckman两阶段模型与文本分析方法，实证检验企业数字化转型对创新绩效的影响及作用机制。实证结果显示：数字化转型显著影响企业的动态能力决策行为，企业的创新绩效也因此得到显著提升。异质性检验结果显示：数字化转型对创新绩效的提升在国有企业

期刊

面向视频监控的异常事件检测技术研究

随着信息技术的发展,监控设备的部署越来越多,为了构建智能安全的监控场景,对大量监控视频进行管理面临更多挑战,因此对监控视频进行智能异常事件检测的研究具有重要的现实意义。面向视频监控的异常事件检测具有一定的挑战性,不同场景中异常类型的多样性和异常定义的无界性,限制了监督学习在视频异常事件检测中的应用。自动编码器作为一种无监督的方法被用于视频异常事件检测中,但自动编码器较强的泛化能力导致正常帧和异常帧

学位

面向陆空通话的说话人识别研究

陆空通话是民航空中交通管制员和飞行员之间进行交流的主要载体,对于飞行器的正常起降、紧急情况时地空间的沟通都有着重要的意义。依据统计数据,陆空通话错误引起的飞行安全事故占所有安全事故的41%,对陆空通话进行分析有助于避免出现飞行安全事故。为保障航空安全,缓解陆空通话分析工作中的人工负担,本文针对陆空通话语音特点,探索适用于陆空通话的说话人识别方法,从而为陆空通话的自动化与智能化分析奠定基础。为获得良

学位

面向标签噪声的行人重识别方法研究

行人重识别的优异性能往往依赖于具有准确行人身份标签的大规模数据集,然而在实际场景中,由于数据采集和注释困难,样本会不可避免地被错误标注,这就产生了标签噪声。标签噪声会误导网络的学习,从而导致模型的性能的下降。但是,现有的行人重识别方法很少关注标签噪声给行人重识别带来的负面影响。针对这个问题,本文以消除噪声标签对行人重识别不利影响为目标展开了如下研究:针对现有的行人分类模型不具备抗噪声能力的问题,本

学位

图像描述文本生成方法研究

最近十年来,随着深度学习技术的飞速进步,越来越多的研究人员将眼光投入到计算机视觉与自然语言处理相结合的任务中。其中的一个任务:图像描述,即图像生成文本,该任务旨在通过用一句或多句自然语言来描述图像的视觉内容。最近,它已取得了显著的成果,图像描述任务按照生成的文本长度可分为:单句子的图像描述和图像段落描述。单句子的图像描述更强调生成的句子符合图像语义,从图像的整体部分去描述图像的视觉内容;图像段落描

学位

噪声与说话人感知的轻量级语音增强算法研究

语音通信在日常生活与工作交流中发挥着极为重要的作用,而人们常常处于较为嘈杂的声学环境中,这极度影响了通信质量。同时智能设备提供的语音交互功能大大提升了人们日常生活的便捷性,不过需要确保设备在使用中尽可能接收到干净的语音,以识别出正确的指令。因此,能够降低语音背景噪声、提高语音质量的语音增强技术就显得尤为关键。近年来,基于深度学习的语音增强技术凭借着出色的降噪性能已经成为主流方法。但现实生活中的语音

学位

基于U-Net的低质量文本图像二值化方法研究

与本文相关的学术论文