论文部分内容阅读
汉字的字体信息是文档信息的重要组成部分之一,在汉字文档的电子化过程中有着不可忽缺的作用。汉字字体信息是版面分析、理解和恢复的重要依据,还有助于实现高性能字符识别系统。该文对基于单个汉字字符的字体识别算法进行了研究,主要的创新工作为:
(一)根据汉字的结构特点,首次提出了笔画属性特征和笔画分布特征的概念,并用于单个汉字字符的字体识别。其中笔画属性特征只反映字体差别,而笔画分布特征则同时反映字体差别和字符差别。
(二)根据汉字的字体特点,提出一种全新的小波识别特征提取方法。在文本无关条件下的、基于单个汉字字符的字体识别非常困难,其关键和难点在于很难提取到有效的字体鉴别特征。该文提出的特殊的小波特征很好地解决了这个问题,为实现一个文本无关条件下的、基于单个汉字字符的高性能字体识别系统打下了坚实的基础。
(三)鉴别特征的提取和高性能分类器的设计。由于字符信息在汉字图像中占支配地位,字体信息只是附加在字符信息上的细微变化,因此在文本无关条件下提取的字体识别特征中必然包含大量的字符信息。为保证高的字体识别性能,必须尽可能提取字体鉴别信息,去除字符信息的干扰。为此,该文提出对提取的初始特征进行线性鉴别分析处理,得到适于进行字体识别的鉴别特征。同时在分类器设计方面,通过分析特征的分布,该文设计了一个高性能的字体识别分类器。
(四)幂方变换和鉴别学习的研究。在参数分类器设计过程中,以下两个因素降低了分类器性能:首先,样本的真实分布并不等于假设分布;其次,最大似然估计得到的参数和实际参数之间存在偏差。我们针对这两方面对系统进行改进:通过幂方变换,有效降低了系统的模型误差;通过鉴别学习,有效减小了参数估计误差所引起的系统性能劣化。
利用以上技术,该文实现了一个高性能的字体识别系统。在文本无关条件下,该文在计算机生成的高质量样本集上,对于7种字样识别得到98.20%的识别率,对于28种字体识别(7种字样和4种风格的组合)得到90.58%的识别率;在接近实际样本质量的样本集上,对于7种字样识别得到91.29%的识别率。
该文提出的算法是关于在主要属性变化剧烈条件下,对于细微属性的特殊和困难的鉴别领域,具有较大的通用性,适用领域广泛。该文算法不仅适用于基于单个汉字字符的字体识别领域,而且在基于单个字符的语种识别、基于单个字符的手写印刷属性鉴别、手写数字识别等领域都表现出优秀的识别性能。