部件HMM级联的联机自由手写汉字识别方法

来源 :第八届全国汉字识别学术会议 | 被引量 : 0次 | 上传用户:shuiqianzeqing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出了一种识别自由手写体汉字的级联HMM方法,在部件HMM模型基础上按照统计语法将各模型依概率连接,它扩展了HMM的模式描述方式,允许在级联模型上表征状态的跳跃、转移和驻留等.通过共享手写汉字部件模型来描述级联状态转移概率,可以更加可靠地刻画自由手写体的行为特点.采用面向级联的Viterbi算法,无需做部件的分割和标注.用26,000多个部件样本训练部件HMM模型,用汉字编码字符集第16区的94个汉字字样共65,800个样本对该区所涉及的部件进行改进性训练.我们提出的级联HMM方法的第一候选识别率为87.89﹪,基于分段的HMM识别方法的第一候选识别率为86.17﹪,降低错误识别率达12.4﹪.
其他文献
把不同字体文本看作不同的纹理,使用Gabor滤波器提取纹理特征,通过识别纹理来识别字体是一种简便有效的方法.但是,现有的字体纹理识别方法没有考虑字体纹理本身的特点,因此本文对原有方法在两方面加以改进以提高字体识别率:通过使用遗传算法优化滤波器角度参数来优化滤波器设计,使其更能适应字体纹理的特点,提取有效特征;设置多个字典以消除印刷质量不均及笔划密度分布对字体纹理造成的影响.最后对报纸正文四种基本字
本文提出了一种分级的电路板图像中的文本定位方法.该方法分三步:基于梯度图像空间方差文本定位;基于纹理的文本定位以及基于颜色聚类的文本定位.通过对我们图像样本库中电路板图像的试验,验证了本文方法的速度和效果.
本文提出了一套基于统计的中文标点识别算法,包括特征抽取、特征选择及贝叶斯分类器的应用.与现有的基于逻辑判断的算法相比,本算法有较强鲁棒性、易于扩展功能,具有普遍意义,并且实验结果表明该方法识别率比逻辑判断算法有所提高.
本文以银行票据OCR系统中的账号为例,分析了手写数字串切分的难点,提出一种基于多种切分方法组合的手写数字串切分方法,将BFA、LDP、滴水三种切分算法组合起来,用于手写数字串的切分,以提高手写数字串的切分正确率,并对组合的策略及决策函数进行了研究.
汉字识别是一种典型的大规模式识别问题.解决多类模式识别问题的一种方法就是把它分解成一组更简单的类数更少的识别问题的组合.本文研究了这样一种方法,把多类问题分解成最简单的两类问题的组合,提出了"否定概率和"合成方法.并把这种方法应用到汉字识别中,将首选识别率从89.25﹪提高到97.17﹪,幅度达7.92个百分点,错误率降低73.67﹪,取得了较好的效果.
Boosting是一种可以提高弱学习算法准确率的通用方法.而SVM是一个非常强大的分类器,并且已经在包括手写字符识别和人脸检测等在内的广泛领域取得了非常好的效果.本文通过汉王10.0找出20对容易混淆的相似字对作为实验对象.然后应用SVM的方法进行训练和识别,和汉王10.0相比,错误率减少了17.55﹪.接着我们将SVM和Boosting方法结合,从而得到一种新算法——基于Boosting集成的S
小波变换和傅立叶变换在图像处理方面有着广泛的应用.本文在结合二者特点的基础上提出了一种新的基于小波变换和局部傅立叶变换的脱机手写数字特征提取方法.即对于一个输入的手写数字图像首先进行小波变换,依据小波变换后的子图像,分别提取他们的局部傅立叶变换后系数作为它们的特征.这样的特征既具有小波变换的多尺度分析的性能,又具有局部傅立叶变换能够很好描述图像局部频域的特征.实验数据采用MNIST数据(美国国家标
脱机手写体汉字识别是汉字识别的一个热点,也是机器字符识别最为困难的一个课题.传统上我们采取纯软件识别的方法,这样识别率可以达到比较高的水平,但是识别速度很低.模板匹配是脱机手写体汉字识别的主要部分,它也是整个识别速度的瓶颈.针对手写体汉字识别过程中模板匹配速度过低的问题,我们设计并实现了基于ASIC的脱机手写体汉字识别系统,此系统可以大大提高识别速度.ASIC的设计采用了硬件多级流水线和反馈机制提
现有的脱机手写体汉字识别系统面临的主要困难是识别率较低,同时要求书写汉字清晰、工整,因此限制了这些系统的使用,相比较而言,特定人手写体汉字识别系统具有更高的识别率,同时对书写的汉字不加限制,具有很好的实用性.因此对特定人手写体汉字识别系统的研究是很有意义的.这里简单介绍特定人手写汉字识别系统的原理,主要讨论一种有效的特定人手写体汉字识别的训练方法及后处理的方法.
中文签名鉴定是中文信息处理的前沿课题.近年来,联机签名鉴定越来越受到人们的青睐,虽然其可靠性不如指纹与虹膜识别,但是后者代价往往要高许多,并且许多场合中无法运用.本文在充分研究了汉字的构成特征,提出了新的基于奇异点分割的签名鉴定方案.从试验中发现,一个真实签名的最难模仿处不在于基本上没有变化的每一笔段的中间,而在于笔段的两头.从这一角度出发,本位提出了区别对待笔划中各采样点的鉴定方法.本文的所采用