脱机中文手写识别—从孤立汉字到真实文本

被引量 : 0次 | 上传用户:aixuexier
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
鉴于巨大的应用潜力和附加的特别难度,脱机手写汉字识别吸引了大批的研究者。近三十年的研究,主要集中在工笔手写汉字识别方面。产出的成果囊括了手写矫形、特征提取、分类器设计以及语言后处理等各个方面,进入手写文本时代的条件基本成熟。本文旨在建立脱机中文手写文本识别的基本框架,涵盖了从基础数据到评价体系,再从改进的方法到全新研究策略等一系列内容。首先构建了能够支撑中文手写文本研究任务的基础数据,HIT-MW库;并在理解问题的过程中,定义了评价字符切分和识别算法的度量准则。然后分别从切分策略和无切分策略两条不同路径开展手写文本识别方法的研究。最后,在证实切分策略和无切分策略存在明显互补性的基础上,提出基于双策略的组合系统。本文分析了手写汉字识别的未来发展趋势并给出研究的逻辑结构。首先以识别对象的升级为主线,系统总结了文字识别研究的发展历史。通过分析发展历史,并结合汉字识别研究在手写库建设和识别策略方面的研究现状,指出中文手写文本识别将是未来的研究重心。这将进入一个新的时代—“手写文本时代”。新生时代是在手写单字时代基础上的进一步发展,所以,随后评述了手写孤立汉字识别领域在手写矫形、特征提取、分类器设计以及语言后处理等各个方面的重要研究成果。本文从全新角度构建了HIT-MW库。HIT-MW库是国际上首个文本级别的中文手写库,它的收集成功昭示着手写文本时代的开端。它的抄写文本来自人民日报语料库,涵盖了约800万字语料的99.33%用字。书写者经过精心确定,得到了与实际分布基本吻合的统计数据。经过系统的采样策略和缜密的过程控制,HIT-MW库不仅包含歪斜、交叠和粘连的文本行,还有抄写错误、文字涂改等真实手写现象。大量的支撑证据表明,这些基础数据可以视为全体中文手写文本的代表子集;其上的识别结果,具有统计意义。目前,该库已为十多家科研机构采用。本文不仅定义了文本研究的评价准则,还从切分角度进行了方法研究。首先建立了文本切分和识别的基本评价准则。为评价文本的识别优劣,定义了识别正确率和识别准确率。两种准则可以有效刻画系统在删除错误、插入错误和替换错误上的平衡能力。为了评价不同字符切分方法,定义了切分正确率、切分精确率和切分偏差率等准则。综合应用这三种准则,可以发现切分方法在数字、标点和汉字等不同字符类型上的切分能力以及在过切分和弱切分上的偏向性。其次开展了基于切分策略的真实文本识别研究并提供了两个重要建议。第一,在设计新算法时,如果其支持证据仅依据于一种手写矫形配置上表现出的优势,那么其可信性可能并不成立;理想的方案是比较待评价新、旧系统各自最优手写矫形配置上的结果。第二,MQDF分类器需要改进,以加入先验概率信息,进一步的分析显示,采用大规模语料估计的先验信息比直接从训练集估计的先验更具稳定性。本文提出基于无切分策略的真实中文手写文本识别方法。该方法在训练时直接采用手写行,不需要对字符位置进行标记;识别时无需字符切分阶段。采用同类型特征的切分系统和无切分系统间的对比实验,证实了无切分策略的可行性和巨大潜力。在这一研究框架下,针对四平面交叉特征的弱点,提出增强的四平面交叉特征(en-FPF)。与以前的方向平面不同,en-FPF的方向平面包含了重构原始图像的全部重要信息。实验表明,en-FPF在数字、标点和汉字上均有更好的识别性能,也是目前无切分框架下各项识别率最高的单项特征。en-FPF在融合了简单的网格特征,并结合主成分分析和数据共享方法之后,对汉字的识别正确率,在训练数据稀疏的条件下,仍超过50%。本文在验证了两种识别策略的互补性的基础上,分别设计了串行结构和并行结构的双策略组合系统。首先定义了字符匹配率用以反映两系统在某个识别正确率上的互补能力。在这一准则的辅助下,发现两种识别策略甚至在同样训练数据和同类型特征下,仍可以很好的相互补充。随后,设计了两种双策略组合系统,扩展了多分类器研究的内容和范围。串行结构的组合系统把无切分识别器插入到切分系统的字符切分阶段。这一组合结构是在识别过程中,先启动无切分系统,随后启动切分系统。并行结构的组合系统预先以并行方式执行切分和无切分系统,然后由切分系统的度量值决定是直接输出还是转而输出无切分的结果。实验结果证实了双策略组合系统的显著效力。
其他文献
阐述构成稻米品质的因素,以碾磨品质、外观品质、蒸煮食味品质和营养品质4个方面10项指标为基础,探讨品种遗传特性、栽培因素和环境因素对稻米品质的影响,旨在为今后提高水稻
随着城市公交规模的不断扩大,乘客出行可供选择的线路也越来越多,因此,如何找到若干条合理的公交出行路径是乘客密切关注的问题。在实际情况中,我们希望能够基于乘客给出的出
国外毛泽东研究领域第三次论战主要是围绕心理分析方法,即从微观方面勾画毛泽东思想肖像而展开的"争论"。唯物史观只是提供了从总体上把握毛泽东的方法,只是构建了毛泽东的"整体
目的:研究运用一效散及膏外敷治疗晚期肿瘤并发褥疮的疗效。材料与方法:采用回顾性研究方法,对29例晚期肿瘤并发褥疮患者的临床分期,辨证分型、分期护理、治疗效果及其与褥疮
机器翻译(Machine Translation: MT)就是用计算机将一种自然语言翻译为另一种自然语言。经过七十多年的发展,目前机器翻译已经深入到各个子领域的研究。在翻译方法的研究上,
类风湿关节炎(RA)是一种常见的以关节病变为主的,慢性系统性自身免疫性疾病。现代医学对本病发病机制目前尚不完全清楚,在治疗上也缺乏行之有效的方法。RA属祖国医学的“痹证
网络心理咨询作为一种新兴的心理咨询模式,因其特殊的自主性、便捷性、匿名性受到求助者的欢迎,并受到越来越多研究者的关注。本研究通过对我国高校网络心理咨询开展情况的调
目的:将疮疡平软膏运用于临床褥疮患者,观察用药后患者疮口愈合情况,证实疮疡平软膏对褥疮疗效确切,从而更好的减轻久卧病床褥疮患者的痛苦。材料与方法:采用随机分组的方法
遗传算法求解优化问题的性能很大程度上取决于交叉概率(p_c)、变异概率(p_m)等参数的选择。简单遗传算法在进化过程中采用固定的p_c、p_m值,容易出现收敛速度慢和早熟收敛现
近年来,工程建设业面临的竞争压力不断增加。由于建设周期长,参与单位众多,技术工艺复杂以及地理分布广等特点,在工程建设项目建设过程中普遍存在着风险因素多、管理效率低下