论文部分内容阅读
自然场景文本检测(Natural Scene Text Detection)是指预测自然场景中文本的位置,完成文本定位的过程,它是计算机视觉领域中的热门研究方向。受自然场景图像中复杂背景、文本多样性等因素的影响,经过十多年的研究,虽然文本检测领域取得了一定进展,但是仍面临鲁棒性差、精度低等不足。为了提高文本检测的精度,本文对它包括的两个处理阶段:候选文本区域生成和文本区域定位分别进行研究,取得了不错的效果,主要研究内容如下。(1)针对现有的基于最稳定极值区域(Maximally Stable Extremal Region,MSER)的候选文本区域检测方法精度低,容易出现漏检的不足,本文首先引入用于图像中物体检测的对象建议(Object Proposal)方法对候选文本区域进行定位;然后和MSER生成的候选区域相结合生成较完整的初始候选文本区域;最后采用基于启发式规则的过滤算法得到最终的候选文本区域。实验结果表明,对象建议可以补全最稳定极值区域所漏检的候选文本区域,进而得到更好的文本定位结果。(2)针对现有的文本定位算法检测多方向文本效果差的不足,提出了一种基于随机区域扩张的多方向文本定位算法。首先,输入候选文本区域,在各个连通域上提取笔画宽度特征、视觉散度特征和边缘梯度特征,并通过贝叶斯算法将三个特征融合得到各区域最终特征值;其次,基于上述特征值,设计条件随机场模型进一步判断候选文本区域中的真实文本区域和非文本区域,得到初始的文本定位结果;再次,基于随机区域扩张,将属于相同方向的字符连接在一起,形成文本行区域;最后,寻找包围目标文本的最小矩形区域,定位文本行,得到最终的定位结果。实验表明,本文算法在自然场景文本检测数据集上取得了较好的检测效果,能够较好地定位多方向文本。(3)根据项目需求,基于本文提出的对象建议和最稳定极值区域融合的候选文本区域生成方法和基于随机区域扩展的多方向文本定位算法,结合国际上开源的场景文本识别算法,基于MATLAB设计并实现了自然场景文本提取系统,自动从输入的场景图像中定位和识别中文本内容。该系统已通过项目验收,取得不错的应用效果。