论文部分内容阅读
汉字作为一种世界上最古老,并唯一流传至今的形意文字,已有六千年历史了。作为我们日常使用的语言文字,其具有数量巨大,结构复杂,相似字多等特点,因此手写汉字识别体现了模式识别领域的最高水平,其中脱机手写汉字识别是目前最为困难也最具挑战性的研究课题。在办公自动化,机器翻译等方面,脱机手写汉字识别又有着广泛的应用前景。因此可以说对于脱机汉字手写识别的研究不仅拥有深刻的理论意义,更包含着巨大的实用价值。脱机手写汉字识别大致可分为:预处理、特征提取、分类器等几个主要步骤。本文针对这几步进行了深入的研究,主要工作包括:(1)预处理方面,利用均值滤波器实现了图像的平滑去噪,根据纸张来源不同采用了不同的处理方法完成了图像二值化。然后深入研究了倾斜校正,汉字切分,归一化等技术,并根据系统实际需要进行了相应处理,为后继的特征提取打下了良好基础。(2)通过回顾和总结几种常用的细化算法,并结合本系统的特点提出了一种基于SPTA细化算法的改进方法,达到了很好的效果。(3)按照特征提取的不同类别,全面比较了全局统计特征、局部统计特征,结构特征的优缺点,并在本系统中采用了弹性网格像素概率分布特征提取法。(4)分析了多种分类器的设计,并对BP神经网络在分类识别,学习训练等方面做了全面阐述。本课题在深入研究脱机汉字手写识别理论的基础上,开发了一套学生成绩自动处理系统。它属于小字符集手写汉字识别,这与传统的大字符集手写汉字识别有所区别,这也为该课题的成功实施提供了可能。在本系统中,通过建立一个包含“优、良、中、差”四个常用成绩手写汉字的样本库,对一些纸质成绩单进行电子扫描并机器识别,实现了学生成绩管理自动化,极大的提高了办公效率。通过对实验样本的测试,系统的正确识别率达到了96.25%,虽然这只是一个研究性模型,离实际应用还有一些差距,但是这方面有益的探索与尝试,为今后脱机汉字手写识别的应用研究提供了一定参考价值。