论文部分内容阅读
古籍,是指未采用现代印刷技术印制的书籍,具有重要的文献考古价值。古籍的数字化可以真实且清晰地反映古籍原貌,在信息传播和利用上具有极大优势。古籍数字化在提供古籍字符信息的同时,也应当向使用者提供质量可靠的古籍图像信息,然而古籍文本由于年代久远或保存不当,图像质量下降严重,所以古籍图像修复成为了古籍数字化中的重要问题。对于古籍文本的扫描图像而言,透背问题尤为重要。透背现象是指一种图像质量衰减现象,往往是由于墨水从纸张的正面渗透到反面,从而影响了文本的阅读。如何实现扫描古籍图像的透背去除,成为古籍图像数字化过程中一个越来越重要的课题。本文围绕如何快速有效地去除扫描古籍图像中透背部分的问题展开研究。论文介绍了国内外扫描古籍图像透背去除算法的研究现状,并在现有透背去除算法的基础上,分别提出了基于支持向量机(Support Vector Machine, SVM)的扫描古籍图像透背非盲去除方法和全局与局部特征相结合的扫描古籍图像透背盲去除方法。本文的主要研究内容如下:1.在扫描古籍图像的信息提取方面,对现有的图像特征提取算法进行分析研究,提出了一种基于高斯混合模型(Gaussian Mixture Model, GMM)的图像全局特征提取方法。根据扫描古籍图像的图像内容特点和像素灰度级分布特点,通过对图像建立高斯混合模型,并根据图像的高斯混合模型中的参数,提取出图像特征。2.在扫描古籍图像透背非盲去除方面,提出了一种基于支持向量机的扫描古籍图像透背非盲去除方法。该算法对配准后的扫描古籍图像对进行K-means初始聚类,根据双面图像特点,随机选择训练样本并训练SVM分类器,利用训练好的SVM分类器对图像进行细致分类,最后根据分类结果对透背区域进行修复,得到无透背的扫描古籍图象。该方法运算简单,能够较好的满足非盲去除要求。3.在扫描古籍图像透背盲去除方面,本文主要分析了全局和局部特征对透背去除效果的影响,提出了一种基于全局和局部特征的扫描古籍图像透背盲去除方法。该方法首先通过图像的高斯混合模型中的参数提取图像的全局特征,然后结合图像的局部特征,利用基于极限学习机(Extreme Learning Machine, ELM)的分类器对这些特征进行训练与学习,获得图像中的透背区域,最后对透背区域进行图像修复。该方法在不同测试图像上都可以有效去除透背部分,有较强的鲁棒性。