论文部分内容阅读
自然场景中的文本广泛存在于道路指示牌、广告牌、车牌、各类仪表等场景中。字符检测与识别日益成为计算机视觉和文档分析领域的一个热门研究问题。然而自然场景中文本的检测和识别是一个极具挑战的问题,困难主要来源于文本的多样性、背景的复杂性和成像过程中引入的干扰因素等。如果直接将原始自然场景图像送入文本识别器会造成诸多不良问题,如识别错误、遗漏文本和无法识别等。因此,精确的文本检测定位算法将极大地提升自然场景中文本识别和语义理解的准确度。本文研究自然场景中字符处理的方法主要针对自然场景中文本检测,目的是能够准确定位出自然场景中的文本,为后续字符识别的可靠性提供保证。本文主要工作内容如下:1、研究了基于MSER的字符检测算法,针对该算法无法检测低对比度图像中文本的问题,本文提出了一种基于Retinex的多颜色空间MSER字符检测方法。该方法利用Retinex增强算法提升图像的对比度,并分别提取灰度图像和HSI颜色空间中亮度通道图像的MSER,结合二者的最大稳定极值区域获得文本候选区域。经测试,改进方法在图像受光照强度影响时能有效提升字符检测性能,从而扩大基于MSER字符检测方法的应用范围。2、研究了自然场景中字符处理的常用算法,针对单一的检测算法对复杂背景的图像检测效果较差的问题,本文提出了基于MSER与SWT融合的字符检测方法。该方法首先通过计算MSER和SWT获得连通区域,然后基于二者提取到的连通区域的距离关系进行融合获得候选文本区域。经测试,该方法能有效提升复杂背景图像中字符检测的性能。3、分析复杂背景图像字符检测的结果,针对结果虚警率过高的问题,提出了对字符检测结果利用分类器进行二次验证的方法。该方法利用随机森林决策树训练样本,然后利用训练后的分类器对已经检测到的文本区域进行二次验证,从而获得最终的文本定位结果。经测试,改进方法能有效降低文本检测结果的虚警率。4、分析了用于训练字符分类器的特征,针对单一的特征并不能达到很好的分类效果这一问题,本文提出了多特征融合构成字符特征的方法。该方法分别提取区域的HOG特征和LBP特征,然后利用串行融合的方法将获得的两类特征向量融合得到联合特征向量。经过测试对比,改进的方法能够有效提升分类器的性能。