论文部分内容阅读
随着便携式高分辨率设备的快速普及,文本图像逐渐成为人们传递信息的重要信息媒介,而大部分的文本图像信息需要识别并转化为常用的文档文件后,才能被更好地利用和存储。在众多的文字识别技术中,OCR(Optical Character Recognition,光学字符识别)技术是目前使用比较广泛且提取文字信息最为高效的文本图像处理方法。然而,由于在现实生活中,我们可能处于各种不同的光照条件下拍摄和采集文本图像,从而造成获得的文本图像的质量参差不齐,进而对OCR识别率有很大的影响。在各类光照情况中,光照不均匀情况的影响最为突出且也最容易出现。针对光照不均匀问题,本课题提出了一种基于Retinex算法的光照不均匀校正方法。其核心思想是结合图像增强和二值化算法对采集的文本图像进行处理,以期在获得清晰的二值分割图像的条件下,同时能保证算法处理时间尽量少,从而使最终OCR识别率和耗时能达到平衡。文章首先就目前文本图像光照不均国内外研究情况进行了概括和介绍,同时分析了各方法的优缺点。然后,针对文本图像处理过程中涉及到的关键图像处理技术进行简单地描述,其中主要包括图像增强、图像二值化和图像去噪等。第三部分列出来拍摄文本图像可能出现的各种光照情况,然后对其图像信息进行分析,并以此来展开对本课题校正方法的算法设计思路、评估及有效性进行详细地描述。第四部分具体描述了算法实现的整个流程和各部分的细节。后面部分通过对采集的各类样本处理实验结果进行测评和分析来验证算法的有效性,实验结果分析的主要参考条件为OCR识别率和算法校正耗时。最后,对本课题提出的光照不均文本图像校正方法进行总结。实验表明,使用该算法能很好地消除光照不均匀的影响,相对于常见的局部二值化以及增强方法,其OCR识别率有明显的提高,同时全局分块和局部方法的结合也提高了其在各式样本以及不同光照情况下的适用范围。