论文部分内容阅读
该文针对手写汉字识别的特点,以联机手写体汉字识别系统为测试平台,研究了多分类器融合技术的相关理论及其应用技术,包括多分类器融合的设计准则与应用、多分类器融合的体系结构与优化方法、多分类器融合方法,以及多分类器融合技术在手写体汉字识别后处理系统中的应用等等.多分类器融合的三个设计准则(组员分类器的准确率、组员分类器的多样性以及融合分类器的效率)是设计融合系统时首要考虑的问题.该文在比较一般模式识别系统与基于多分类器融合的模式识别系统差异的基础上,对多分类器融合方法有效性的理论依据进行了分析.进而,详细探讨了三个设计准则对多分类器融合系统的约束条件,对其中两个重要准则:准确率和多样性准则之间的相互关系及特点进行了实验研究.针对实践中容易忽视的多样性准则,通过理论和实验分析,详细地研究了该准则的应用技术,包括融合分类器识别准确率理论上界的预判、基于多样性的分类器选择准则和多分类器融合方法.从结构特点及使用范围两方面着手,研究了多分类器融合体系中的两种最基本的结构:并行结构与顺序结构.并在理论上分析了两种不同融合结构形式对系统性能的影响.进一步,对融合系统的优化问题进行了深入研究,指出了常用MSE优化方法的局限性,提出适用于手写汉字识别系统的优化方法:遗传算法和AdaBoost方法.在对两种算法的基本理论和应用方法进行研究的同时,通过实验验证了两种方法的有效性.针对手写体汉字识别系统的特点,提出两种新的多分类器融合方法:基于统计的和基于模式类空间分布的多分类器融合方法.基于统计的多分类器融合方法研究中,根据分类器的统计特性,针对融合分类器的两个性能指标:首选和十选准确率,提出了不同的融合准则提高其准确率.根据模式类在不同分类器解空间上的分布差异,提出了基于模式类空间分布的多分类器融合方法,该方法综合考虑了不同分类器之间的平均可信度、相对可信度和算法可信度信息,三方面可信度信息经过线性加权得到每个分类器的综合可信度信息,最终依据综合可信度信息选择最优的输出.利用统计语言模型及信息论的思想进行联机手写体汉字识别的多分类器融合,包括基于统计语言模型的多分类器融合策略、基于词网格的语言学解码方法、多样性准则在后处理系统中的应用和系统资源的构建.针对后处理系统中前端识别器和后端语言模型的融合问题,建立联机手写体汉字识别后处理系统的数学模型,并利用遗传算法解决了二者的最优拟和关系.最后,分析了联机手写体汉字识别系统的特点、组成、基本识别方法和后处理系统组成及特点.