论文部分内容阅读
随着汉字识别的应用越来越普遍,应用系统中对汉字识别的速度和正确率的要求也越来越高。目前,汉字识别技术主要分为两种,即在线识别和离线识别。汉字在线识别的技术已日趋成熟,很多能够进行汉字在线输入的系统都能够使用该技术。由于汉字在线识别的对象是在线输入的汉字,所以它能够利用笔画顺序、书写轻重等重要信息。而汉字离线识别的应用范围更为广泛,只要能够采集到汉字图像的场合都能够使用该技术。由于汉字离线识别不能利用笔画顺序、书写轻重等重要信息,所以难度相对要大一些。加上汉字数量浩大,使用汉字达到万余字;汉字结构复杂,变化多端;印刷体文字有不同字体、不同大小之分;手写汉字的书写更是因人而异、因时而变,形态变化巨大。如何解决这些问题已成为研究的热点。 汉字离线识别的技术主要分为两类,它们是基于整体信息的识别技术和基于局部信息的识别技术。前者将汉字作为一个整体来进行特征提取,如各种不变矩、各种整体图像变换、各个方向上的投影等等。这类方法对印刷体汉字识别十分有效,而对形变较大的手写体汉字的识别效果并不能令人满意。相对于整体的较大形变,汉字的局部信息,如笔画、字根等的形变较小。基于局部信息的识别技术对这类问题具有更好的效果。笔画提取是这类技术中的重点和难点。 论文主要研究了现有的各种笔画提取技术,并提出了两种新型的笔画提取模型。与同类模型相比,这两种模型分别在笔画提取的速度和效果上有了一定程度的提高。其中,基于笔画段分割与组合的笔画提取模型的对象是二值图,它对印刷体和限定手写体汉字的效果很好,且时间上较同类模型有较大提高。而基于可旋转滤波器的笔画提取模型的对象是骨架图,它的应用范围更广,而且对部分手写体汉字笔画多余连接问题的解决效果明显。汉字离线识别技术中笔画提取模型研究-中文摘要 最后,在matlab平台上对两种模型做了实验,对大量汉字进行了笔画提取,并在速度和效果上和同类模型做了对比,通过实验说明了这两种笔画提取方法的有效性。