基于二叉树多层分类SVM的脱机手写体汉字识别方法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:chaos32167
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉字识别一直是模式识别最重要的研究领域之一,具有广泛的应用前景。经过多年的研究,已经取得了大量成果[1-3]。但是,无约束的非特定脱机手写体汉字识别仍然被认为是文字识别领域最困难的问题之一[4],其原因可以归结为:相似汉字较多,且有些相似字差别极其细微;存在大量的不规则书写变形。支持向量机(Support Vector Machines-SVM)已经在模式识别、回归分析和特征选择等方面得到了较好的效果[5][6]。本文以脱机手写体汉字识别为研究对象,首先根据一种判定汉字复杂程度的标准[4],对汉字进行初步粗分类,然后分别基于汉字的字型结构和外围边框类型对汉字进一步粗分类,最后将汉字分为9种类型,生成了一个二叉分类树。根据二叉树叶子节点中的汉字集类型,选择不同的混合特征作为各组SVM分类器的输入,采用“一对一”方法进行最终的细分类识别。具体做了以下几方面的研究工作:(1)汉字粗分类二叉树的构造。依据手写体汉字笔划数和复杂度之间的关系,进行初步粗分类;研究了手写体汉字的字型结构以及外围边框特点,进一步对汉字集进行粗分类,从而构造出一个手写体汉字粗分类二叉树,实现了基于汉字复杂度、字型结构和边框类型的多级粗分类。(2) SVM核函数参数寻优方法的改进。依据核校准理论,对一种核参数的优化选择方法进行了改进,利用改进后的方法在训练前对训练样本进行聚类,以获得核参数。(3)脱机手写体汉字的特征提取及融合方法的研究。依据二叉树粗分类中不同汉字集的不同特点,利用不同的特征作为各个SVM分类器的输入;同样依据细分类中不同汉字集的不同特点,选取不同特征并对其融合形成新的特征,作为各个“一对一”SVM分类器的输入,进行细分类识别。(4)选取SCUT-IRAC库中的手写体汉字作为仿真样本,以MATLAB7.0为仿真工具进行了仿真分析。仿真结果表明:本文提出的这种新的二叉树SVM粗分类方法与“一对一”SVM细分类相结合的分类识别策略,充分发挥了二叉树分类速度快和SVM分类正确率高的优点,取得了较好的效果。
其他文献
核磁共振扫描仪由磁体子系统、梯度子系统、射频子系统、床体子系统等部分组成。床体子系统担负承载病人运动的作用,它的使用寿命会影响整个仪器的寿命,同时,床体运动的速度
无线传感器网络(Wireless Sensor Network,WSN)是一种全新的信息获取和处理技术。它综合了传感器技术、嵌入式技术、无线通信技术以及分布式信息处理技术。一般来说,WSN由大
邮政速递网络是邮政企业提供速递服务的物质基础,是关系速递服务竞争能力的基础条件。邮政企业要满足市场的需要,邮政速递网络是其重要支撑。我国邮政速递覆盖的地域广阔,整个邮
学位
建设资源节约型、环境友好型社会(简称两型社会)是党的十七大做出的重大战略部署,是我国试图走出经济发展与资源过度消耗、环境严重破坏悖论的探索和尝试,达到经济、社会与自然
作为无线电能传输(Wireless Power Transfer,WPT)技术领域的一项重要的分支,感应耦合式电能传输(Inductive Coupling Power Transfer,ICPT)技术凭借灵活性强、辐射小以及抗干
随着企业的信息化程度不断提高,企业的数据不断累计、ERP日益成熟。传统的数据库系统高效的实现了数据的录入、查询、统计等功能,但是无法发现海量数据中存在的关系和规则,无法
学位
机械产品制造的最后阶段通常是装配,装配质量的好坏决定了产品的最终质量的好坏。随着“中国制造2025”强国战略的实施,中国制造业迈入了全新的发展时期,同时对产品的装配质
本文依托于国家863计划资助项目“分体自升式新型平台对接就位关键技术研究”(项目编号:2007AA09Z302),通过深入研究现有的海上钻井平台,开发研制一套用于分体自升式平台对接
现实世界中的大多数实际系统都是非线性系统,并均是在外界干扰力作用下工作的。传统的方法是把非线性系统进行线性化处理,但当对象的输入变量,受外界干扰波动明显,特别是当对象为
近30年来,作为一个新兴的数学分支,分形几何成为了人们描述与研究自然界纷繁复杂现象的强有力的工具之一,同时,它在图像压缩编码中也得到了广泛应用。   基于分形理论的图像编