论文部分内容阅读
随着数码相机、数码摄像机、摄像头、超高速扫描仪等图像获取设备的广泛应用,以数字图像和视频为主的多媒体信息正迅速成为信息交流与服务的主流。如何让计算机自动理解并利用图像和视频等多媒体文档的内容,已经成为当前图像处理和多媒体领域研究的一个热点。由于图像和视频中的文字直接承载了语义信息,从而使得这些文字成为理解图像内容的重要线索。为了能够检测、抽取并识别出图像中的文字,本文针对复杂背景下文本信息的检测和抽取问题展开研究,主要内容包括:
第一,针对不同复杂度的图像,提出一种基于图像复杂度分析的自适应混合边缘文本检测方法。该方法首先对图像复杂度进行分析,即将图像复杂度分为低、中、高三个级别;然后对不同复杂度的图像自适应地选择合适的边缘检测方法。其中,对低复杂度图像,采用Sobel算子进行边缘检测;对中等复杂度图像,采用Sobel算子进行边缘检测后,利用梯度的幅值和方向信息进行边缘连接,将断裂的边缘连接起来;对高等复杂度图像,本文设计了一种基于多尺度多方向的能最大限度地去除噪声并能较完整地保留文本边缘的形态学边缘检测方法。这种基于图像复杂度分析的文本检测方法结合了基于边缘、连通域和纹理的方法,采取由粗到精多级检测验证的策略,提高了文字检测率。通过分别在场景图像集和视频图像集上与其它单边缘检测方法的比较,表明了本文所提出的文本检测方法的有效性。
第二,针对复杂背景中的文本抽取问题,本文提出一种基于条件随机场的文本抽取方法。该方法将文字底层的颜色和纹理等特征信息以及空间上下文信息融合到一个条件随机场模型中,通过状态特征函数和转移特征函数描述图像底层特征和空间上下文特征。其中,对于图像底层特征,本文在考虑颜色特征的基础上,加入了Gabor纹理特征。本文比较了不同颜色空间和不同特征对基于条件随机场的文本抽取方法性能的影响,验证了该方法的文本抽取性能。
第三,为了解决在复杂背景下,只利用图像底层信息无法有效区分文字像素和背景像素的问题,本文在标准条件随机场的基础上,提出了一种基于多层上下文信息的条件随机场文本抽取方法。在该方法中,图像的颜色和纹理等特征作为图像的局部信息,标签域上下文信息作为图像的一种全局信息,通过描述图像中整体的标签分布情况,可以修正由图像底层信息引起的分类错误。通过分别在简单和复杂背景下与其它文本抽取方法的比较,表明了本文所提出的基于多层上下文信息的条件随机场方法在文本抽取方面尤其在复杂背景下的有效性。