论文部分内容阅读
随着信息技术不断发展,数码相机与具有成像功能的智能手机已经为当今人们所常见。这些设备不仅改变人们的生活方式与文化,也产生了大量的数字图像,其中包含海量的信息。这些信息中不仅囊括各种实物与场景,也包含着文字信息。数字图像中的文字信息对于人们是至关重要的,但是从数字图像中提取文字信息至今仍是一项具有挑战性的任务,也是一个亟待解决的难题。场景复杂度是场景图像文字提取算法中一个常见并难以处理的干扰因素。本文将研究重点放在复杂场景数字图像中的文字检测与定位算法的研究上,通过对人类视觉显著性与文字颜色特性的分析,设计了两种场景文字背景抑制算法(基于视觉显著性与提升框架的场景文字背景抑制方法与基于视觉显著性与文字置信图的场景文字背景抑制方法),以及一种基于HSL颜色空间的场景文字定位算法。本文的主要成果和贡献包含以下几方面:1、利用视觉显著性抑制背景且突出前景,以方向梯度直方图特征、方向梯度直方图统计特征、梯度幅度特征和梯度曲线特征的弱分类器,结合提升框架提出一种背景抑制算法。该算法首先根据谱残差理论获得视觉显著性图,再将其与校正级联提升分类器输出的文字置信图进行几何平均,最终达到针对场景文字的背景抑制效果。该算法的目标是抑制自然图像中复杂背景且突出前景文字,并作为场景文字检测定位算法的预处理阶段增强整体算法效果。在International Conference on Document Analysis and Recognition(简称ICDAR)2011文字定位数据集和实验室场景中文数据集上的实验结果表明,该算法较好的抑制自然场景中复杂背景,并有效提升场景文字自动定位算法的性能。2、基于视觉显著性与文字置信图,提出针对场景文字的背景抑制算法。该算法首先根据谱残差理论获取显著性区域,然后利用基于笔画特征的点对梯度方向差比例图与基于傅里叶谱统计特征的后验概率图取得显著性区域的文字置信图,最后借助图模型融合视觉显著性图、文字置信图与HSL颜色特征,达到抑制自然图像背景并突出前景文字的效果。在ICDAR 2011文字定位数据集与实验室场景中文数据集中的实验结果表明,该算法作为场景文字自动定位算法的预处理阶段,可较好地抑制自然图像中复杂背景,并有效提升算法的性能,同时可以较好应对旋转与倾斜的文字。3、提出基于光度不变量的角点类别特征与边缘幅值方向梯度直方图(Histogram of Oriented Gradients of Edge Magnitude,简称HOG-EM)统计特征,并据此设计了一种两级多层复杂场景文字定位算法。该算法首先获取边缘图像并在HSL颜色空间提取8层二值化图像,将其组成9层子图并做连通域分析提取文字候选区域;然后提取文字候选区域的角点类别特征与HOG-EM统计特征,将二者分别用于剔除非文字候选区域和验证文字区域。在ICDAR 2003文字定位数据集与实验室场景中文数据集中的实验表明,该算法可较准确剔除纹理丰富的背景区域,有效降低复杂场景文字定位算法的虚警率,取得较理想的准确率和召回率。