论文部分内容阅读
本课题对当前国际上典型的数学公式识别系统作了一些研究和比较,对其在中文文档识别中暴露出来的问题作了比较细致的讨论。参考了原有系统的一些特点,专门针对中文数学公式文档提出了一个新的数学公式识别系统。由于新的系统充分利用了中国汉字自身所特有的一些特征,所以同原有的系统相比,新的系统在结构上大大简化了,在效率上也有所提高。新系统另外一大优势在于,它可以在不用识别数学字符的情况下,对数学公式进行提取,这样对提高系统的效率有着积极的意义。新系统结构非常简单,主要分三大步:第一步是图像预处理,着一步的主要目的是把彩色图转换成灰色图,去除图像噪声,增强图像清晰度。第二步是数学公式提取,这一步的主要任务是将数学公式同普通文本分割开来,它又分为独立公式行的提取和内嵌公式提取。第三步是公式字符定位,这一步的任务是在已知的公式范围内对公式字符定位,最终取得每个字符的位置和大小。 这个系统的主要目的是对数学公式中的字符进行定位,为数学公式识别的后继的结构分析、字符识别等步骤作必要的准备工作,它是整个数学公式识别过程中的一个难点。本系统对独立公式行提取的准确性达到98%以上,在内嵌公式提取方面还有待加强,在公式已提取的情况下能够准确地提取出每个连通体。