论文部分内容阅读
随着信息时代的到来,在数字化大环境中,越来越多的资源以文本图像的形式保存。在全球化的进程中,国家之间交流日益频繁,在海量的信息处理过程中,光学字符识别技术(Optical Character Recognition,OCR)得到广泛应用。文种识别技术是OCR前端处理步骤,同样也是文本图像分析的一个重要环节,已经成为一个研究热点。文种识别的研究从1990年开始至今,已经取得不少具有重要价值的成果,大部分研究的数据库都只包含部分地区的文字,数据量少,不能确定适用于更多的文种。鉴于文种识别方法存在的一些问题,本文建立了多文种文档图像数据库,文种的选取包含全球通用文种、中亚文种和国内少数民族文字,具有普遍适用性。本文针对多文种文档图像的文种识别技术进行了相关研究。针对不同语言文字的构造特征、笔画书写特征、空间分布等存在一系列差异,在文档图像中所表现的就是不同的纹理特征,本文提出了基于离散曲波变换的文种识别方法和基于HOG特征的多文种文档图像文种识别方法。为提高单一纹理特征的文种查全率,提出了基于曲波变换纹理特征融合的文种识别方法。本文所做的主要工作如下:1.简述了文种识别领域的研究发展,总结了该方向取得的突出性研究成果,分析了多文种文档图像文种识别技术研究需要突破的难点。2.创建一个标准的实验数据库。分辨率为200dpi,图像尺寸为256×256,数据库包含中文、俄文、英文、土耳其文、哈萨克斯坦文、藏文、维吾尔文、吉尔吉斯斯坦文和蒙古文9个文种。每个文种各有1000幅图像。3.鉴于我们建立的数据库,扫描的书刊有些纸张软薄,会有另一面的影印。选取加权平均法灰度化、中值滤波去噪和全局阈值二值化对文档进行预处理,从而达到提取特征前的二值化图像的背景一样和降噪的目的。4.提出了一种基于离散曲波变换的多文种文档图像文种识别方法。利用文档图像经过曲波变换后得到的系数提取能量特征,组成特征向量。采用Bayes、LDA和SVM三种分类器进行特征训练和分类。实验结果证明该方法优于传统的文种识别方法,如基于小波变换、二元复数小波变换、LBP等文种识别方法。5.提出了一种基于HOG特征的文种识别方法。计算和统计文档图像每一个区域的梯度方向直方图组成特征向量,采用不同的分类器进行特征训练和分类,与经典方法的对比实验结果证明,该方法特征提取时间短,且能准确地提取文档图像的纹理特征,有效提高文种查全率。6.提出了一种曲波变换纹理特征融合的多文种文档图像文种识别方法。利用曲波变换后的cell矩阵中的低频和高频系数,提取纹理特征,并融合图像统计特征,组成特征向量,采用不同的分类器进行特征训练和分类。实验结果证明该方法能有效地提取文档图像的纹理特征,提高文种识别效率。