论文部分内容阅读
随着智能交通、可穿戴设备的迅速发展,场景图像内容分析技术已称为当前的研究热点。文本检测与定位技术是进行场景图像内容分析的重要前提,文本字符对表达场景视觉信息具有重要作用,同时也是描述和理解场景内容的有效线索。提取场景图像中的文字信息未来将会在盲人导航、机器人视觉等场景有着广泛应用。本文主要对自然场景下的文本检测和定位算法进行了研究,在最大稳定极值区域以及笔画宽度变换两种算法的基础上,提出了形态学滤波的最大稳定极值区域检测算法和改进的笔画宽度算法。本文首先阐述了最大稳定极值区域算法的定义及其性质,然后介绍了对比度增强的最大稳定极值区域算法。为了解决字符粘连的问题,在对比度增强的最大稳定极值区域算法的基础上使用形态学滤波的方法进行了改进。该方法使用梯度幅度图对灰度图进行边界增强,同时通过设计8个膨胀结构元素,在图像边缘像素点处,根据图像梯度方向进行自适应的选择膨胀结构元素,有效地解决了极值区域的字符粘连问题,减少字符漏检情况。接着,本文分析了笔画宽度变换算法,鉴于笔画宽度变换算法对边缘强烈的依赖性,本文使用边缘保持滤波器进行预处理,同时针对字符交叉笔画处容易存在空隙的问题,对边缘点对约束条件进行改进,同时结合颜色信息生成笔画连通域。改进后的笔画宽度变换算法能够很好地保持字符区域的完整性,减少非文本连通域的生成,同时降低背景对字符区域的干扰。通过设计基于连通域的文本区域定位框架,分别使用形态学滤波的最大稳定极值区域以及改进的笔画宽度变换算法进行字符候选区域的提取,后续采用字符候选区域初步验证和基于支持向量机的字符候选区域验证对非文本连通域进行剔除,并使用均值漂移聚类算法进行文本行聚合,最后通过分析文本行的布局和几何关系,对文本行中的单词进行分割。在ICDAR2011数据集上对本文设计的文本区域定位框架进行测试,结果表明,本文提出的形态学滤波的最大稳定极值区域检测算法和改进的笔画宽度算法均取得了较好的效果。