论文部分内容阅读
随着计算机应用范围的扩大,需要计算机处理的数据量也越来越大,在很多领域里,常采用OMR(光学标记阅读机)来解决大规模数据的采集、识别和录入的问题。虽然OMR解决了一些填涂信息卡数据录入的问题,但是由于其自身存在对填涂信息卡裁切精度要求高、光电头安装位置和排列密度相对固定、分辨率低等难以克服的缺陷,使得其使用和推广受到了限制。本文利用图像识别技术对采集的填涂信息卡的数据进行识别,它使用文字识别的方法、算法完成信息卡上标记的识别。即首先通过CCD摄像头把信息卡作为整幅图像输入,再用算法定位、分割、按照文字的识别方法,识别出各种手写符号,对于涉及一些填写了汉字的信息卡,把包含汉字的图像块分割出来,并显示在计算机屏幕上进行人工校验、录入,大大降低了信息卡的填写和制作要求,减小了误识率,提高了信息卡的处理速度。这种方法除了可以避免上述OMR自身存在的缺陷外,还可使填涂信息卡的式样设计更为灵活和用户化,数据准确性高。该技术在教育、卫生、财政、民政、组织、司法、能源、邮电、交通等等诸多领域显示出其良好的应用前景,将成为当今大型数据处理的首选设备。本论文首先系统地探讨了光标阅读器(OMR)的原理、结构。接着对符号识别系统的关键,即图像预处理,做了深入的研究,讨论了提高图像质量的多种方法,分析了图像预处理中多种方法的特点。针对信息卡图像的特性,以提高识别率为目的,提出了相应的预处理方法。在对图像进行二值化处理时,我们提出了一种动态阈值二值化方法,它通过动态改变阈值,对光照造成的灰度不均匀图像有很好的效果;同时详细介绍了一种彩色二值化方法,它避免了灰度化的过程和灰度化方法选择的弊端,直接对彩色图像的RGB值进行处理,具有保留图像的原始特征、不依赖前期的灰度化过程、二值化效果稳定的特点。本文对当前多种已有的字符识别方法进行了探讨,并根据本系统需要识别的信息的特点,采用模板匹配方法、神经网络学习方法以及结构识别多种方法对用户手写符号进行识别,并且采用表决方式选择识别结果,提高了系统的识别率。识别时结合多种特征提取方法,在用最小距离分类器时,将一种误差均衡距离方法用于手写体符号识别,取得了令人满意的结果。在手写符号识别的基础上完成了信息卡的识别,实现了本文研究的基于图像识别的OMR系统设计。