基于结构特征的手写体汉字识别研究

来源 :云南师范大学 | 被引量 : 0次 | 上传用户:skyeyviva
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
手写体识别有着广阔的应用前景和很高的理论价值,从应用角度来看各种文档的高速自动录入,档案管理,早期图书资料的数字化,邮件的自动分拣,证件的自动阅读,票据的自动处理等方面都有广泛的应用。从理论方面来讲传统的模式识别理论和技术在手写体汉字识别中有很大的局限性,研究手写体汉字识别可以认识高难度模式识别的一般规律,还有助于发展新的模式识别理论,而且它涉及到模式识别、图像处理、数字信号处理、自然语言理解、人工智能、模糊数学、信息论、计算机科学、中文信息处理等许多学科,因此手写体汉字识别在相关学科研究和多学科的融合中都有很高的理论价值。汉字识别从1966年IBM公司的Casey和Nagy首次发表了汉字识别的文章到现在已有40年的历史,经过无数科研工作者的努力现在联机识别和印刷体识别已经可以达到实用水平,只有脱机手写体识别至今还不能达到令人满意的效果,被称为文字识别中“最难征服的领域”,尤其是基于结构特征的手写体汉字识别更是具有挑战性。其中手写体的连笔问题和变形问题是手写体识别中的两大难点。本文从结构特征出发对限制性手写体的识别进行研究,同时也对于连笔也提出了解决的方案。本文提出了新的笔段提取算法;对没有连笔的手写体提出了基于笔段的结构判断和部首分割算法;对有连笔的手写体提出基于笔段的部首的动态组合算法;重新定义了方向线素特征;将结构特征和统计特征有机的结合起来提出新的特征。对每个输入的汉字预处理后进行细化,首先用传统的方向线素的特征判断每个像素点所属的笔段类型,这样就提取出各种笔段的一些小线段,再经过延伸、连接、删除,笔段类型的判断再延伸等操作,提取出横、竖、撇、捺四种笔段。利用笔段来定义方向线索特征,从整体上考虑方向特征,削除传统的方向线素特征中的不确定信息,提取出一个196维的特征向量。在细化的基础上利用像素值从0到1的数目来提取交点的数目,当然在提取的时候要去掉三叉点的干扰。将各种笔段的数目和交点的数目作为特征向量的前五个分量并且赋予较大的权值,把新的方向线素的特征向量作为第6到第201个分量,使结构特征和统计特征有机的结合起来,组成新的方向线素的特征向量。对没有连笔的汉字进行反转用和提取笔段类似的算法在规定的区域内提取最长的横和竖,对于结构类型进行判断,
其他文献
基于城乡统一的建设用地市场,分析城乡一体化地价的衔接方法,实现城乡地价的衔接性。通过文献资料法、图解法、实证分析法,以农地发展权及阿隆索土地竞租模型理论为基础,分析
<正>改革开放,促进海上航运业的发展.作为国家海运主力军的国有航运企业,由于受到体制、资金和产权等诸多因素约困惑,发展受到各种制约.而在以前受到限制发展的地方航运企业
本文以现场管理道依兹中高速机为例,阐述了其易发故障的部位、危害、原因、判断及解决方法。并将此体会供同行商讨,以便逐步摸索总结出中高速机的管理经验,减少或杜绝该型机乃至
<正>我国是礼仪之邦,亲友同事之间的礼尚往来,既是一种感情的表达,也是一种问候和安慰。我国古代有这样的故事,唐贞观年间回纥使臣缅伯高奉命上京给唐朝皇帝进贡一只稀有的天
期刊
那家在港上市的设计师品牌江南布衣(JNBY),如今怎么样?
为了实现行政公益诉讼维护公共利益的目的,检察机关在行使该项权力时应遵循谦抑性、职权法定、有效性三项原则。目前,我国的行政公益诉讼面临着案件受案范围狭窄、线索来源受
城市是个有机体,不断地进行着新陈代谢,与外界完成能量交换。在人类进入城市时代,城市去工业化的进程中,城市经历着发展阵痛,老工业建筑一度成为城市中欲铲之而后快的城市"疮
本文根据目前部分临床医学生预防医学学习缺乏热情的实际情况,提出了在教学过程中,开展认识学习预防医学的重要性和必要性;改革教学内容、教学方式;建立预防医学实习基地,开
<正>一、现状近年来,采用集装箱来运输包装危险货物已越来越显示出它的优越性.各远洋公司更新船舶的情况也表明采用这种运输方式的趋向.
2015年,在政策冲击下,互联网O2O企业如雨后春笋般涌现,对于大众而言,他们除了让生活更便利外,就是给大众造成“烧钱”印象。而对于业内人士来说,一番大浪淘沙之后,每每提及O2O,总忍不
报纸