论文部分内容阅读
目前,自然场景文本检测已成为计算机视觉领域中的热门研究方向,交通标识文本属于自然场景文本的一种,它在无人驾驶系统的视觉感知环节中占有重要地位。尽管研究者们在交通标识检测领域已取得了很好的成果,但是针对交通标识文本检测的研究却很少。事实上,交通标识文本包含了丰富且有价值的交通信息,若能将其与交通标识的检测相结合,则可为相关应用的开发带来更大的益处。本文针对国内交通标识文本提出了一种有效的文本检测方法,该方法仅包括一个全卷积网络(Fully Convolutional Network,FCN)和一个简单的后处理步骤,特殊设计的头尾文本像素定位法使得该检测器对于尺度较长、排布稀疏的词组检测性能鲁棒。该方法在本课题组构建的国内交通标识文本数据集(CTST-1600)上进行了测试,所获得的F值为0.79。与此同时,在公共数据集ICDAR 2013和MSRA-TD500上的测试结果与相关最先进方法相比也获得了具有竞争力的结果,实验结果表明该方法在应对交通标识文本检测以及其他复杂场景文本检测具有较好的适应性。实验中发现第4章方法在应对复杂光线条件下的检测效果以及网络运行速度方面存在不足,针对上述问题,本文第5章提出了相应的改进方案,具体体现在:为应对交通标识所处环境的复杂多变性,在原网络首端加入一个图像预处理模块,它能对输入图像进行光线检测并对被判定为光线不佳的图像进行自动增强处理,从而有效提升文本检测模型在复杂场景条件下的召回率;提出利用尺度转换层替代FCN中的上池化层,尺度转换操作能够在扩大特征图的同时压缩通道至原通道数的1/4,从而达到降低网络复杂度、提高网络执行效率的目的。改进后的文本检测方法在CTST-1600数据集上所获得的F值由0.79提升至0.82,检测速度指标FPS由4.90提升至5.28。与另外三种方法对比,本章方法具有明显的综合性能优势。