论文部分内容阅读
字符识别是模式识别的一个重要方面,在信息处理,办公自动化,邮政系统,银行系统等方面有着重要的使用价值和理论意义。本文主要对字符识别系统中基于概率的提取方法进行了研究,其中包括对文本行的提取、块的提取和词的提取,并对字符识别预处理中的两个问题:图象二值化和倾斜字体校正的几个方法的优劣进行了讨论和试验模拟,并最终为我们的字符识别系统确定了相应的方法。相关内容如下:对于我们的字符识别系统的识别流程作了简要介绍,并对以往的提取方法作了简单回顾和评论,进而提出提取算法应该建立在数学模型而不是经验的基础上。建立了提取算法的概率模型且给出了相关的算法,并详细讨论了算法的每一个步骤。简要介绍了图象处理中常用的投影算法用于行的提取。对我们所给出的提取行的算法进行了实验模拟,并将实验结果与投影算法的结果进行比较和分析后选取了基于概率的提取方法。介绍了块提取算法和相应的步骤。介绍和讨论了“细胞计数方法”用于对文中所涉及的概率的计算。基于所建立的概率模型给出了字符识别系统中词的提取算法并对其进行了实验模拟并对模拟结果进行了分析和讨论。对字符识别系统中预处理中的二值化方法进行了讨论,进而提出了背景阈值方法并且介绍了算法的步骤,对本方法和 Ostu 方法进行了实验模拟和对比分析,通过比较我们选择了背景阈值方法。介绍了基于链码统计的倾斜字体校正方法,并将此方法与梯度法的实验结果进行了比较,结果前者效果更好。