论文部分内容阅读
在科技高速发展的现代,许多科技文献中包含大量的数学表达式,而当前的OCR系统还不能正确识别这些数学公式,当人们对科技文献进行数字化时,其中的公式只能按照图像格式进行保存,而不能加以识别分析,这样就不能依据公式对文章进行检索,而有的文章其核心内容就是这些公式。另外,公式是由特殊的符号、希腊字母、英文字符和数字组成的复杂的结构体,其输入要比普通文本的输入困难的多。为此,我们提出了一种新的关于表达式识别的设计思想,并给出了完整的算法,将印刷体的数学公式(图像格式)转换成可编辑的电子格式(如LATEX,Word公式编辑器)。数学表达式的识别包括符号识别和结构分析两个阶段:粘连字符的分割。粘连字符为字符识别带来了困难。本文提出用自组织映射作字符分割的方法,对经典的自组织学习规则做了一些改进,使其能以较少的神经元结点、较快的速度逼近粘连字符的白像素点的分布。文中对最短路径分割方法和自组织映射法分割做了对比,后者能分割一些前者不能处理的粘连字符。特征提取与选择。从一个字符图像提取抗旋转、缩放、平移的几何不变性特征。文中介绍三种常用的矩方法:规则矩、Zernike矩和样条小波矩。文中还介绍了基于神经网络的主分量分析方法,在38维矩特征中选取18维的主特征,保留信息量的同时,大大降低了特征矢量的维数,消除了样本间的相关性,突出了差异性。字符识别。分类器是整个识别系统的核心。文中用自组织特征映射做字符的粗分类,将特征相近的字符分在一组。然后BP神经网络对各组字符做细分类,识别出同一组的不同字符,有效地提高了分类精度。文中还介绍了字符识别的置信度分析以及它的主要两个应用:估计识别率和拒识区域的选择,通过适当地选择拒识区域使得识别正确率和拒识率之间达到最优折衷。公式重构。为了系统描述的完整性,这部分被安排在附录C中。本论文部分工作是与侯利昌师兄共同研究的结果,并且反映在我们共同撰写的论文“A Segmentation Method for Merged Characters Using Self-Organizing Map NeuralNetworks”中。