论文部分内容阅读
随着科学技术的不断发展计算机字符识别越来越成为模式识别的重要方面之一,将纸质的文件转换为数字形式,进而实现对纸质文件的修改、删除等操作,然后将待处理图像进行数字图像处理,完成字符识别。本文将解决计算机字符识别中遇到的问题,主要有两个方面,第一个方面是针对人为原因造成的待识别字符图像具有不同程度的倾斜,提出一种新的倾斜校正算法,将字符中每列的上边缘字符点提取出来,这些字符点会最多的落在某条直线上,形成的直线就是待检测直线,这条直线的倾斜角就是文档图像的倾斜角,然后经由模板匹配进行准确校正,校正角度范围在0到360之间。并且对于倾斜的文字图像中存在笔迹干扰的情况,通过检测其他字符区域边缘,寻找倾斜直线,也能校正成为横平竖直的状态。另一方面是针对去除人们在纸质文件上做各种记录或者在行间划线等,利用投影法求出投影数组中的各个非零串和连零串,找出汉字的字号大小和行间距,然后定位行间部分,直接将行间笔迹去掉。在matlab环境下编程,对多幅待检测图片进行试验。分别对各种不同复杂的情况进行讨论,结果表明本文提出的倾斜校正和去除笔迹的方法,适用范围广,相较于其他算法有很大的进步,验证了算法的可行性和准确率。