论文部分内容阅读
自然场景图片中包含许多有用的信息,如街道名称、商店名称、交通标识等。准确地从自然场景图像中获取文字信息是数字图像处理中一个重要的研究内容。从自然场景图片中抽取文字信息的研究包括两个部分:文本区域定位和文字识别,文本区域的准确定位是文字识别的重要前提。这是一个比较复杂的研究内容,主要原因是图像中文字的字体、大小、方向、位置千变万化,还可能因为获取条件的限制使得文字比较模糊或者被其它物体遮挡。本文提出了一种基于边缘检测和纹理分析的方法来对场景图片中的文本区域进行定位。首先将图像中像素点的像素值均衡地规划到0和255之间,用来消除图像中明暗程度的差异对系统产生的影响。自然场景图片中的文本和背景之间通常在色彩或者亮度上存在一定的差异,因此利用这一点可以通过边缘检测的方法来得到图像中的文本候选区域。为了突出图像中的文本信息,先将原始图像映射到一致性空间,然后在一致性空间使用滑动窗口对候选区域进行扫描,提取滑动窗口内图像的特征。在研究过程中所使用的特征包括灰度共生矩阵特征和统计量特征。支持向量机方法是一种比较重要的分类方法,在我们的研究过程中得到了应用。通过交叉验证和网格搜索的方法来确定分类器的最优参数,同时避免了过拟合问题的发生。但是支持向量机方法没有特征选择的功能。在确定分类器的最优参数之前,通过分析每个特征的数据分布情况来选择特征进行分类器的训练。分类器参数确定之后,依据特征空间优化准则,使用不同的特征选择策略,对原来的特征空间进行优化。将分类器的判别结果映射到结果图像,定位出图像中的文本区域,并将相邻相似的区域进行合并,确定文本区域的最终位置。对文本定位来说,期望识别系统能够像人一样准确的分辨文本区域的边界是不现实的,对系统的衡量也需要综合各方面的因素。最后,通过使用区域匹配和基于数量的两种衡量标准对系统进行评价。通过实验表明,本文提出的方法能够很好的解决图像中文本字体大小变化的情况,得到较好的结果