基于全类分类器与子集分类器融合的脱机手写汉字识别研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:kmyzkmyz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着模式识别方法的逐渐成熟和个人计算机性能的迅速提高,手写汉字识别技术取得了很大进展,但现有方法对脱机手写汉字识别的性能还存在明显不足。本文针对大类别集手写汉字识别的分类器设计进行研究,在基于全类分类器与子集分类器融合方面做了一些工作。主要研究工作如下:   一、提出了基于线性鉴别分析(LDA)的复合距离方法,该方法能够有效的区分汉字中的相似字,并取得了很高的整体识别率。我们证明了在一些严格的假设条件下,以往学者提出的复合马氏距离是我们提出方法的特例。虽然我们提出的方法需要一些额外的存储量,但当在原始特征空间计算相似对的LDA鉴别矢量的时候,我们提出的方法能够获得比MQDF和复合马氏距离高得多的识别率。   二、比较分析了线性鉴别分析(LDA)、异方差鉴别分析(HLDA)、近似信息鉴别分析(AIDA)和线性支持向量机(SVM)在相似字鉴别方面的性能,实验结果表明绝大多数相似字是线性可分的。HLDA和AIDA与LDA相比没有明显差别,这说明即使是非常相近的汉字,它们的类别中心也离得足够远。线性SVM和LDA相比在区分相似字上也没有明显区别。   三、提出了全类分类器与不完全两类分类器融合的一个概率性框架。全类分类器与两类分类器的输出被分别转化为所属类别的概率,然后全类分类器与相关两类分类器通过多数投票法、筛选法、对耦合(Pairwise coupling)、最小最大方法、纠错输出编码、排除解码方法进行融合。这些方法考虑到了全类分类器的多个候选,最后的识别结果比基于LDA的复合距离方法有了进一步提高。尤其在全类分类器识别率不高的情况下,效果更加明显。   四、提出了一种基于Dempster-Shafer(D-S)证据理论的融合大类别全类分类器(基分类器)与子集分类器的方法。通过引入虚拟分类器方法(子集内类别个数大于2)和否定概率法(子集内类别个数是2)来估计子集外类别概率。实验结果表明,该方法能明显地提高基分类器的识别率。   本文提出的一些算法在ETL9B和CASIA手写汉字样本数据库上测试,得到的识别率达到了世界先进水平。
其他文献
复杂资源受限项目调度问题是在满足时序约束和资源约束的前提下,按照某种规则合理安排项目的任务,从而达到既定目标的一种多约束组合优化问题,属于NP-hard问题,在实际应用中模型
随着大规模集成电路的飞速发展,载有智能芯片的智能高清相机在监控系统中的应用显示出其优势。智能相机拍摄到的画面效果的好坏,除光电器件性能保障之外,还取决于图像的后处理算
学位
随着对现代导弹速度和射程等性能要求的提高,导弹设计倾向于增加导弹长度,同时为提高有效载荷而减小结构质量,致使导弹具有较大的长径比,使得导弹表现出较为明显的弹性特征。
近20年来,异步电机直接转矩控制以其简洁明了的系统结构,优良的动、静态性能,得到了极大的发展。多电平逆变器由于具有对器件耐压要求低、输出谐波含量小等优点,已经广泛地应用于
DSP芯片可以实时快速的实现各种算法,速度比通用的微处理器快,并且数据处理的指令较高,灵活性较好,大多数算法可以软件实现,集成度较高。本文中液压AGC算法的进一步提高引入了神经
地震勘探局域网数据传输系统的特点是其局域网的覆盖范围大,测量点众多,数据量大,并要求有较高的数据传输率和较好的传输可靠性,同时还要考虑恶劣的地理环境对地震测量仪器在施工
随着社会经济的发展,机动车辆与日俱增,随之而来的人身安全越来越受到人们的关注。最近的研究表明:造成汽车碰撞事故的原因25-30%产生于非正常状态驾驶。可见,非正常驾驶状态识别
随着嵌入式系统技术的高速发展,新的设计思路和实现平台不断出现,应用领域越来越广。传统工程检测仪器一般采用分立元器件构成,具有体积大,功耗大,抗干扰能力差等缺点。SOPC(
上海某仪表有限公司在经历了近几年的飞速发展后,随着公司规模的不断扩大,在管理上遇到了很多难以解决的问题与瓶颈,例如公司各种数据信息分散失真、难以管理和分析,部门间常常由