汉字离线识别技术中笔画提取模型研究

来源 :西南师范大学 西南大学 | 被引量 : 0次 | 上传用户:a3392919
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着汉字识别的应用越来越普遍,应用系统中对汉字识别的速度和正确率的要求也越来越高。目前,汉字识别技术主要分为两种,即在线识别和离线识别。汉字在线识别的技术已日趋成熟,很多能够进行汉字在线输入的系统都能够使用该技术。由于汉字在线识别的对象是在线输入的汉字,所以它能够利用笔画顺序、书写轻重等重要信息。而汉字离线识别的应用范围更为广泛,只要能够采集到汉字图像的场合都能够使用该技术。由于汉字离线识别不能利用笔画顺序、书写轻重等重要信息,所以难度相对要大一些。加上汉字数量浩大,使用汉字达到万余字;汉字结构复杂,变化多端;印刷体文字有不同字体、不同大小之分;手写汉字的书写更是因人而异、因时而变,形态变化巨大。如何解决这些问题已成为研究的热点。 汉字离线识别的技术主要分为两类,它们是基于整体信息的识别技术和基于局部信息的识别技术。前者将汉字作为一个整体来进行特征提取,如各种不变矩、各种整体图像变换、各个方向上的投影等等。这类方法对印刷体汉字识别十分有效,而对形变较大的手写体汉字的识别效果并不能令人满意。相对于整体的较大形变,汉字的局部信息,如笔画、字根等的形变较小。基于局部信息的识别技术对这类问题具有更好的效果。笔画提取是这类技术中的重点和难点。 论文主要研究了现有的各种笔画提取技术,并提出了两种新型的笔画提取模型。与同类模型相比,这两种模型分别在笔画提取的速度和效果上有了一定程度的提高。其中,基于笔画段分割与组合的笔画提取模型的对象是二值图,它对印刷体和限定手写体汉字的效果很好,且时间上较同类模型有较大提高。而基于可旋转滤波器的笔画提取模型的对象是骨架图,它的应用范围更广,而且对部分手写体汉字笔画多余连接问题的解决效果明显。汉字离线识别技术中笔画提取模型研究-中文摘要 最后,在matlab平台上对两种模型做了实验,对大量汉字进行了笔画提取,并在速度和效果上和同类模型做了对比,通过实验说明了这两种笔画提取方法的有效性。
其他文献
医疗术语的翻译对于科技交流十分必要。然而,由于医疗术语数量巨大,并有一定的组合特性,不能完全由字典覆盖。此外,医疗术语的翻译既有领域特性,又有句法特性,具有一定的难度。  
显露模式(Emerging Patterns,EPs)是指那些从一个数据集到另一个数据集支持度发生显著变化的项集,它们能够捕获数据库中两个数据集之间的多个属性上的差异,可以用来建立分类器。
近年来,随着社交媒体的快速发展,越来越多的人倾向在社交平台发布消息,表达自己的意见,传达自身的情感。通过汇总这些信息可以分析主体的情感倾向,从而进行舆情监控和市场营销。同
伴随着医疗信息化在国内的不断推进,顶级医疗机构在过去十年间已积累了大量电子病历。然而,电子病历中很大一部分字段仍以非结构化文本的形式保存,难以进行二次利用。自然语言处
软件集成是一种以重用现存的软件而快速地建立新软件的工程技术。利用软件的重用和集成可以有效地降低软件开发的成本及缩短开发时间,并可以提高软件的质量。目前基于Web和N_
随着PDA(Personal Digital Assistant,即个人数字助理或掌上电脑)软硬件水平的提高,其功能越来越强大,PDA的很多应用和PC联系到一起,所以PDA与PC的通信功能日益显出其重要性,
随着信息时代的不断发展,越来越多的实际流程电子化,从而推动了工作流技术的快速发展;面对现今多样的工作流管理系统的开发技术和手段,可以看到,开发一个符合标准规范、灵活性强、
随着INTERNET的发展,传真服务器的应用越来越广泛.但传统的基于PC架构的传真服务器价格昂贵,维护成本高,专用性不强,因此市场需要性价比更高的传真服务器.该文提出了以嵌入式
在传统企业中,无论是用于支撑业务的应用系统还是用于数据分析的数据仓库,大部分都建立在Oracle、MySQL等传统关系型数据库(RDBMS)之上。随着传统企业向互联网化、智能化、数据
随着微电子技术的迅猛发展,集成电路规模的急速扩大和集成度的迅速提高,给传统的测试技术和测试方法带来了严峻的挑战。 本文首先分析了稳态电流测试方法和瞬态电流测试方法的原理、特点,并分别指出它们的不足,在此基础上研究了一种新型的测试方法——全速电流测试方法。全速电流测试方法将稳态电流测试方法和瞬态电流测试方法结合起来,利用在一段时间内输入两个交替变换的向量,通过检验其平均电流的情况,对被测电路进