论文部分内容阅读
识别数字图像中的文本应用越来越广泛,目前,对图像中文字的识别已经相对成熟,但是对于一些与数学相关包含公式的文档识别仍是一项挑战。公式提取是公式识别的重要步骤,只有准确的将被文字包围的公式提取出来,才能对公式进行识别,从而识别整个文档。本文提出一种自动从包含文档的图像中提取公式的方法,公式提取的所有步骤均由计算机完成,无需人工辅助。直接输入原始图像即可提取出其中的公式。首先,对原始图像进行预处理,包括:二值化、图像增强以及图形分割。经过预处理的图像去除了图像中噪声,占用存储空间小,图像中公式特征更加明显,并将图像中的整篇文档分割为独立行的文本行图像。经过这些预处理后,再进行公式提取的准确率与效率将大大提高。其次,针对只包含独立公式行的文本图像,我们提出了基于“黑色连通集邻接图”的公式提取方法,该方法不基于任何识别结果,仅根据“黑色连通集邻接图”的节点和边的特征将纯文字行和独立公式行分类。经实验验证,该方法的分类距离较大,公式提取的准确率较高。针对更普遍的包含嵌入公式的文本图像,在进行基于“黑色连通集邻接图”的一级公式提取的基础上进行二级强化提取公式。首先,在一级公式提取阶段,将纯文字行和包含公式的文本行区分;其次,包含公式的文本行进行二级公式提取强化,使用基于特征的提取以及基于“成词”和特殊符号识别结果的公式提取方法将图像中的所有公式(包括独立公式和嵌入公式)提取出来。再次,利用实验验证该算法进行公式提取的准确性。最后,总结本次毕业论文的成果与不足,并展望未来的研究。