论文部分内容阅读
随着计算机、多媒体以及通讯技术的飞速发展,相当数量的文字信息正越来越多地以图像形式出现。图像中的文本是图像内容的一个重要来源,如果这些文本能自动地被检测、分割、识别出来,则对图像语义的自动理解、索引和检索是非常有价值的。
自然场景中的文字包含着丰富的信息,如街道名称、商店名称、路标、交通标示、字幕等,这些信息对于图像的自动注释、索引等方面有重要的参考意义。因此人们对这些文本的分割和识别进行了广泛的研究,并已有许多成熟的技术应用在各个领域,如交通管理中的汽车牌照识别和港口货物管理的集装箱编码识别等。但自然场景中的文本分割依然面临着许多复杂的问题,主要原因是:(1)文字和其他自然景物混杂在一起,如树、窗户和房屋建筑等,背景复杂;(2)文字的颜色多种多样;(3)文字的字体和大小复杂多变;(4)光照的变化等。因此从自然场景图像中提取文本是一项极具挑战性的工作。
目前已有的文本区域提取方法大致可以分为四类:基于边缘的方法,基于纹理的方法,基于连通域的方法和基于学习的方法。基于边缘的方法对于边缘丰富、背景具有较大对比度的文字区域能够达到快速检测文字的效果,而对于复杂的背景图像误判率比较大,容易出现较多的错误;基于纹理的方法主要是利用文本和背景的不同纹理特性将文本从背景中分离出来,但这类方法对于文本的字体和风格比较敏感,存在着定位不准和算法复杂度高的缺点;基于连通域的方法具有较高的处理速度和定位精度,但是当背景复杂或文本与背景颜色相近时分割困难;基于学习的方法对不同尺寸、不同语言和不同字体的文本具有通用性,但文本提取的结果易受训练样本集与测试样本集的相似程度的影响。
在仔细分析了前人的工作基础之上,针对自然场景图像中文本的特点,本文按照多分辨分析,彩色边缘检测,后处理和连通域分析四个步骤,提出了基于边缘和连通域相结合的方法,对自然场景图像中的文本提取进行了研究。由于自然场景图像中字符的大小变化范围很大,为了能够找出大小不一的文本区域,本文采用金字塔分解的多分辨分析方法将图像分解为原分辨率的1/1、1/2、1/4和1/8的四幅子图,然后对每幅子图应用相同的文本区域提取算法。在边缘检测过程中,本文通过对Laplacian边缘检测算子进行扩展,提出了一种新的彩色边缘检测算法。将彩色图像看成是具有各灰度级的R、G、B三幅图像,然后使用基于二阶微分的Laplacian算子分别在R、G、B三幅图像上进行边缘检测,采用欧氏距离将各个彩色分量进行综合考虑,这样既保持了彩色图像中信息的完整性,又考虑到了彩色分量间的关联性。在后处理过程中,本文通过去除长直线,并运用形态学开、闭、腐蚀和膨胀等运算,设计了一套处理方法。该方法不仅能够去除部分背景区域,将文本和相连的背景分离,而且文本矩形区域定位较准确。在连通域分析过程中,先对二值图像进行连通域的标记,然后进行文本区域的验证,再将多尺度图像中的文本区域进行合并,最终得到定位的文本区域。实验表明,本文的自然场景文本提取方法能较好地将文本区域从自然场景图像中提取出来,具有较高的准确率和召回率,文本区域定位准确。但该方法在处理有光照和运动扭曲字体的图像时效果不是很理想,对文本区域阈值的依赖性较强。因此在选取有效的阈值和设定约束条件的方法上需要进一步研究改进。