论文部分内容阅读
日常生活中,为了文档保存和交流的方便,人们经常需要将纸质的文档数字化,对文档进行数字化的方式一般是通过扫描仪扫描或者相机拍照的方式,这种方式获取的带有文档信息的图片即文档图像。目前市面上常用的文档图像处理软件在对文档图像进行二值化处理时用的算法是基于全局阈值的方法,对于光照均匀的文档图像其处理效果正常,但是对于存在光照不均匀的文档图像时会出现大块的黑色区域或者白色区域。文档图像在获取时经常会由于采集设备、文档自身保存状况以及后期的二值化处理步骤而存在噪声,噪声会影响文档图像使用者的视觉感观。此外在获取文档图像时由于文档与采集设备之间的角度偏移会导致拍摄出来的文档图像具有倾斜形变,发生倾斜形变的文档图像会影响视觉观感以及OCR识别的准确率。近年来随着智能手机厂家在其手机拍摄后的照片上面添加了相机水印,手机拍摄到的文档图像也会具有相机水印,相机水印的存在会干扰后期的OCR识别准确率。针对这些问题,需要对文档图像进行二值化、滤波、倾斜校正以及相机水印去除等一系列预处理工作,主要工作如下:1)基于EmguCV(Emgu Computer Vision),利用C#开发了一款文档图像预处理软件,能够对文档图像进行二值化、滤波、倾斜校正以及相机水印去除等处理。2)在开发的文档图像预处理软件中,对存在光照不均匀现象的文档图像进行二值化处理时,使用Niblack二值化方法可以避免使用Otsu方法进行处理时存在的大片的黑色或者白色区域,总体而言开发的文档图像预处理软件取得的二值化效果比市面上常用的文档图像处理软件二值化的效果好。3)在开发的文档图像预处理软件中,提供滤波功能,能够对文档图像的噪声进行处理,尤其是借助于形态学滤波能够处理利用Niblack法二值化后产生的噪声。4)针对文档图像的倾斜校正,采用文本行外接矩形来获取倾斜角度从而进行校正。该方法首先对文档图像进行二值化,然后进行颜色反转,再借助于形态学操作获取文本行的矩形状的长条,进而获取所有文本行长条的外接矩形,获取最长的外接矩形,求得外接矩形的倾斜角度,从而对文档图像进行旋转,该方法的校正效果可以满足文档图像倾斜校正的要求,针对中文文档图像的倾斜校正由于中文上下高度基本一致,效果比基于最小二乘法的倾斜校正更好。5)针对文档图像中存在的相机水印,首先分析了相机水印的特点,通过不同阈值下的二值化效果对比,得到最佳的阈值,然后对相机水印进行二值化处理,最后借助于常用的图像修复算法——FMM算法对相机水印进行去除,去除效果很好,基本上不会对OCR识别带来字符干扰。