论文部分内容阅读
数学公式广泛存在于各类文献之中。数学公式的识别就是将科学和工程文献中的数学公式文件转化成可编辑的公式文本的形式。这对于数学资料的高比例压缩和快速利用、建立数字化图书馆以及按照数学公式进行文献检索等都有着极其重要的作用。但足公式的识别远比汉字和英文字符的识别困难的多。1968年,R.H.ANDERSON在其博士论文中首次提出了公式识别问题。经过30多年的研究,在这个领域出现了一些研究型论文,同时也出现了一些数学公式识别系统。本文对于数学公式的识别,提出了基于扫描表方法和命令串方法的理论。通过扫描圈的提取函数,所有的连笔符号,即几何圈都可以迅速转化为数字串,利用扫描表提取函数将数字串转换成扫描链与扫描阵的组合,进而得到命令串。这个过程用于完成符号的识别,属于微观识别。然后,将得到的命令串进行结构调整,实现公式文件的文本化,拟得到的可编辑文本是Latex格式的文本,这个过程属于宏观识别。同时,简要分析了一些复合公式的Latex文本化原理。文中给出了一些C++代码,用于探索建立基于扫描表方法和命令串方法的公式识别系统。