论文部分内容阅读
作为文档分析系统的预处理步骤,二值化分割文字与背景,这个过程在例如字符识别等要求提取的文字精确且视觉质量高方面起着关键作用。大多数二值化算法以无监督的方式构建在低级特征上,因此无法充分利用输入域知识,会大大限制前景文本与背景噪声的区分。随着深度学习在计算机视觉各个领域的广泛应用,研究者开始采用深度学习模型解决二值化问题,并取得了较好的分割效果。针对于此,本文围绕基于深度学习的低质量文档图像二值化算法展开研究,主要工作及创新点如下:(1)介绍了十二种二值化算法,其中包含六种经典传统算法与六种基于深度学习的最新算法,分别对每种算法进行简要概述,通过实验结果分析算法的优势与不足。(2)算法一首先针对神经网络训练数据集有限的问题,提出一种文本增强网络(TANet)来扩充数据集,充分利用了现有的文档图像;然后将改进后的D-LinkNet网络(MD-LinkNet)作为二值化分割网络。该二值化网络有两处改进,一是在编解码中间部分增加剩余多核池化(RMP)模块与级联空洞卷积(CAC)模块来提取丰富的文档笔画特征;二是将池化后的低分辨率图像采用DUpsample替代传统的双线性插值进行上采样,结合了文档图像的像素邻域信息。采用国际文档图像二值化竞赛(Document Image Binarization Contest,DIBCO)所提供的数据集和评估指标,将该算法与十二种二值化算法进行对比,实验结果表明,算法一的FM值相比较性能次优的DSN算法有5.1%的提升。(3)算法二针对历史文档图像文本分布不均衡,导致单一神经网络的二值化分割存在噪点现象,提出一种级联卷积神经网络来解决二值化任务的多尺度信息融合的核心问题。算法首先采用U-Net网络做基础的分割,旨在保留文档完整的笔画信息;然后将不同比例的图像测试结果进行融合,送入算法一提出的MD-LinkNet进行训练测试;最后采用卷积条件随机场(ConvCRF)进行后处理,去除孤立的噪声点。实验结果表明,该算法在保留完整笔画的同时,对于文字占比较小的文档图像可以较好的抑制噪声。