论文部分内容阅读
模式识别技术的研究目的是根据人的大脑识别的机理,通过计算机模拟,构造出能代替人完成分类和辨识的任务进行自动信息处理的机器系统。模式识别技术在社会生活和科学研究的许多方面有着巨大的现实意义,已经在许多领域得到了广泛应用。随着计算机技术和人工智能、思维科学研究的迅速发展,模式识别技术正在向更高、更深层次发展。人们己开始研究如何用计算机系统解释图像,实现类似人类视觉系统理解外部世界,这就是所谓的图像理解或计算机视觉,并且取得了不少重要的研究成果。这其中就包括文字识别技术。文字识别是一个典型的模式识别问题,也是模式识别中一个非常重要的应用领域。文字识别作为一种信息处理的手段,具有广阔的应用背景,巨大的市场需求是文字识别得以飞速发展的根本动力。因此,对文字识别的研究具有理论和应用的双重意义。 本文全面阐明了文字识别中的特征提取和分类方法,对集成与分类之间的关系进行了深入的分析,然后根据综合集成法的基本思想,针对典型的汉字字符集的特点,提出了相应的识别和集成方法。在此基础上,建立了一个印刷体汉字识别系统。 汉字字符集所具有的字量大、结构复杂和相似字多的特点,字量大导致了直接采用网络进行分类和集成的困难;而结构复杂和相似字多又使得传统的结构分析方法和统计识别方法难以取得满意的效果。针对这些问题,本文对所提出的网络集成方法进行了改进,给出了三个提取不同局部特征的最小距离分类器,并采用上述方法构成了集成型识别系统。测试结果表明,集成后的识别率比原来最好的单分类器高,充分说明了上述方法的有效性。