论文部分内容阅读
字符是信息交流的重要工具,如何有效的将脱机手写体字符输入计算机已经成为国家信息化进程的一个瓶颈。字符识别是模式识别领域的重要研究方向。字符识别技术的用途非常广泛。可用来进行文本和数据的自动阅读以及作为一种高效快速的信息自动录入手段;它可代替人和控制器工作,自动地把字符和其他信息进行识别后录入计算机。字符识别技术能解决大量字符的自动录入问题,有效节约了人们从事字符录入的大量时间,并且使人们从这种繁琐的工作中解脱出来。因为阿拉伯数字和英文字母是全世界通用的一套字符,而且在许多应用场合,如报表、帐单、支票等,手写体很难被印刷体所替代,并且对识别的可靠性要求极高。因此,进行脱机手写体英文字符识别技术的研究具有深远的理论意义和重要的实用价值。字符识别过程要经过预处理、特征提取、分类识别等几个主要步骤。预处理就是对字符图像进行二值化、平滑、细化等处理,特征提取就是提取出能有效代表字符图像的特征。分类识别就是设计分类器对字符进行识别。由于神经树的结构特征,它也具有一定的特征提取功能,在进化树结构的过程当中,一些重要的特征作为树叶子结点会被复制传递,最终进化得到的神经树的叶子结点就是提取到的重要特征。所以,本文采用神经树为分类器对脱机手写体英文字母进行识别,用以进一步提高字符识别效率。
本文的研究对象是神经树识别模型设计,识别对象为特定字符集内的英文字符(26个大写英文字母)。主要研究工作是围绕基于神经树的手写体字符识别技术的应用展开的。首先,本文总结分析了手写体字符识别的研究背景、现状及其研究意义,其次对手写体字符图像的二值化、平滑、细化及特征提取等过程进行了分析。再次对神经树的基本理论和基于神经树的手写体识别模型进行了研究,重点研究了树结构的优化算法和其参数的优化算法。最后建立了一个基于神经树的脱机手写字母识别系统。该系统主要由预处理模块、特征提取模块和神经树识别模块组成。主要工作包括以下两个方面:(1)建立了神经树识别模型,并在matlab环境下进行了仿真试验,对其识别效果与BP网络进行了比较,根据试验结果,分析了该识别模型的性能,表明该模型提高了手写体字符的识别效率。(2)通过在vc++.net环境下仿真试验,搭建了基于神经树的手写体英文字符识别系统,完成了从字符输入、预处理、特征提取、计算机识别和输出识别结果的全过程。试验结果表明它在手写体字符识别过程中能对大量数据进行快速处理,并达到良好的识别效果。