论文部分内容阅读
文本图像页面分割和分类技术是文本自动分析研究领域的一个重要课题,它主要将图像中的文字区和非文字区分割开来,以便于文字区送入字符识别系统转化为电子文档。文本图像页面分割技术对于字符识别系统和图像压缩、图像存储系统都很重要。国内外的科研工作者在页面分割的算法方面进行了大量的研究,取得了丰硕的科研成果,但是由于文本资料版式复杂,各种分割算法一般都只适用于某几类页面版式。 本文对已有的算法进行了研究和试验,提出了两种新的分割方案: 第一种是基于高斯混合模型的分割方法。该方法根据纹理特征的不同,将不同类别的图像区用参数不同的高斯混合模型描述,最后依据最大似然概率进行判决。该算法与已有的纹理分割算法相比,不仅参数训练速度快、算法简单易实现,还不受图文混排等多种版式的限制。 第二种是基于模式链分析的分割方法。该方法将二值化图像用一条模式链表来表示,再对各个模式进行分类。本文针对文本页面图像中的版式复杂(主要指形状不规则的图片镶嵌在文字段落中)不易分割这一难题,对文献(Optical Engineering,Vol.39(3),pp.724-734,March 2000)中的模式分类过程进行了改进。首先,在按模式的统计特征分类时,只使用了最大黑游程一个特征就取得了较好的效果;其次,在模式上下文分类时,并不是对所有的模式进行处理,而仅仅对大图片模式周围个别不确定的模式进行二次分类。另外,在此基础上本文还提出了一种专门用于提取图表中文字的方法,结果表明这种方法是行之有效的。