论文部分内容阅读
通用字符识别软件对航空公司飞机票图像的识别效果非常不理想,影响识别的主要原因是机票种类的多样性,打印的不规范,加上票面各种特征的噪声干扰。
上海航空公司机票数字影像管理系统是针对上海航空公司对机票字符识别的要求,开发的自动化数字影像系统。一期系统提交用户后,我们针对用户提出的新需求和反馈结合发现原有系统中一些问题,不断对系统进行调整,以期达更多的识别信息、到更快的速度、更高的识别率和更好的系统易用性。
前处理是字符识别研究一个非常活跃的领域,其特点是前处理方法的多样性和对各种不同情况的适应性。对于机票识别系统本身而言,由于需要处理票面噪声并对票面信息进行分类,以完成提取或去除,其本身对于本系统和整个课题也非常重要的一个研究分支。某种意义上,对待识别票样合理而高效的前处理算法和前处理流程,是整个数字影像管理系统的关键点和技术特色所在。
课题研究主要针对OCR部分的前处理模块,在原有系统对字符识别研究的基础上,根据用户新需求,提出了完善系统的方式,并结合实际系统,详细介绍在研究中已经验证的算法和解决此类问题的一般思路。
本文首先介绍了目前民航票据处理的现状和需求,简要描述原有一期系统的功能、用户对原有系统的反馈和新需求。接着按照前处理在灰度空间和色彩空间两个大方向分别介绍了灰度和色彩空间前处理的算法。灰度空间的研究工作主要包括:在原有Ostu和Niblack基础上对Bersen、Eikvil二值算法的实现和进一步研究,灰度形态学在定位线提取和去除和信息复原上的应用,字符串定位算法和单字符切分流程;色彩空间上的工作包括:色彩空间的基本知识介绍,色彩模型的选择,HSV颜色模型的介绍和特点,HSV颜色模型对字符信息提取,YCbCr颜色模型的简要介绍,YCbCr模型对图像增强及在此基础上实现底纹和文字分离的研究。
然后给出在灰度空间和色彩空间分别进行前处理后,字符切分正确率的比较。文章的结尾部分对所做工作进行总结,并给出了需要继续完善的方面和未来工作的方向。