论文部分内容阅读
场景图像中包含着丰富的文本信息,它们可以从很大程度上帮助人们去捕获和认知场景图像的内容及含义,因此场景图像中的文本对其所在图像的视觉信息获取具有极其重要的作用。如果使用计算机自动识别场景图像中包含的文本内容,并应用于盲人辅助导航、无人驾驶导航、安全保卫、危机预防及处理等领域,将给人们的工作生活带来极大便利。场景文本识别技术与传统的光学字符识别技术(Optical Character Recognition,OCR)有着显著差别,主要在于场景文本图像与传统扫描文档的不同。场景文本图像主要通过数码相机、摄像机等设备获得,图像中存在颜色不一致、亮度不均匀、背景复杂多变、噪声强烈等现象,文本可能发生变形、字迹模糊、残缺、笔划断裂等问题,这些干扰因素使得场景文本识别存在很大困难,面临诸多挑战。针对这些问题,本文拟对场景文本识别的几个关键技术展开研究,包括复杂背景下的文本提取技术;自然场景下的文本变形校正技术以及场景文本单字符识别技术。针对场景文本背景图像构成复杂、影响文本识别效果的问题,通过分析场景文本图像的特点,在识别前进行预处理,将文本图像从复杂背景中提取出来,在此基础上提出了一种基于归一化割的谱聚类文本提取方法。首先根.据文本图像特点建立相似性权值函数,然后根据场景文本颜色分布特性按照颜色直方图对色彩空间进行量化,得到数量有限、不同颜色的像素集合,并以量化的颜色等级为单位结合像素的纹理特征及分布特点来构造相似矩阵,最后在归一化割准则下利用谱聚类方法实现图像分割。该方法将经过量化的颜色集合作为图分割中的顶点以简化加权图模型,从而显著降低谱聚类的计算复杂性,提高了谱聚类方法在图像分割方面的应用能力。在ICDAR2009、2003竞赛测试集、以及大量其他文本图像上的实验表明,本文方法具有良好的文本提取性能。针对场景文本由于文本载体本身倾斜或获取过程中相机视角倾斜引起的倾斜变形和透视变形问题,提出了一种基于数学形态学的变形校正方法。使用形态学方法针对不同变形情况选取不同形态学因子提取特征点;然后通过聚类方法和最近邻方法根据特征点的聚类信息拟合文本基线,并使用随机采样一致性算法计算基线位置,获得变形参数;最后,通过投影变换完成文本图像的变形校正。实验结果表明,本文提出的方法能够对存在一定程度变形的场景文本进行校正,以提高文本识别系统的识别准确率,特别是对行数较少的场景文本的处理,与其他方法相比具有明显优势。针对场景文本字迹模糊、笔划断裂、噪声强烈等问题,本文提出了一种鲁棒性强的提取Gabor小波特征的改进方法。该方法首先在基本Gabor小波变换基础上进行滤波方向的选择分类,然后利用带有方向选择性的小波变换提取Gabor特征,并与直方图相结合得到用于识别的组合特征。通过一系列的对比实验,显示出利用本文方法提出的组合特征针对笔划模糊这样的低质量字符图像具有良好的分类能力。为寻求高性能的场景文本识别系统,本文提出了一种基于背景相关分析的文本识别方法。该方法针对场景中文本与其背景之间的相互联系,利用典型相关分析方法挖掘背景与文本之间的相关性,提取字符图像与背景图像之间的典型相关特征用作字符分类特征,在场景文本样本集上的测试取得令人满意的结果,实验数据显示使用典型相关特征显著提高了场景文本的识别性能,表明了该分类特征的有效性。该方法突破了传统识别方法仅考虑文本自身特征的局限性,充分利用了图像中文本的周边信息,对场景文本识别方法研究是一个新的突破。实验结果同时表明利用字符以外的背景信息辅助识别是一个值得继续研究的课题,它为实现高性能的场景文本识别系统提供了全新的研究思路。