论文部分内容阅读
随着多媒体技术的发展和数码相机等数字成像设备的普及,人们采集并存储了海量的自然场景图像。自然场景图像承载了丰富的信息,而图像中的文本作为强有力的高层语义资源,对于图像内容的描述和理解以及基于内容的图像检索具有极其重要的意义。因此,自然场景图像中文本信息的自动提取成为亟需解决的问题,文本定位是其中重要的技术环节,亦是计算机视觉领域中的一个极具挑战性的研究课题。
本文旨在对自然场景图像中的文本进行精确定位。采用由粗到细逐步分层检测的方式,避免传统单粒度检测中常见的误检和漏检率较高的问题。设计自然场景文本的多特征提取及分类算法,解决单一文本特征判别力差以及普适性低的问题。引入文本空间分布信息,设计概率推理框架实现文本特征与文本空间上下文的融合,有效地提高自然场景文本定位的精度。
本文针对自然场景中文本定位中的文本区域检测、文本特征提取及分类、文本空间上下文表示等问题进行了深入的研究,主要研究内容及贡献如下:
1.提出了单词级和字符级的文本分层检测算法。单词级的文本检测利用了自然场景文本笔画宽度的一致性,提出基于文本笔划宽度变换的检测方法,该方法的优点是不受文本字体、大小、排列方向、颜色等条件影响。字符级的文本检测是在单词级文本检测的基础上,在得到的候选区域中,利用滑动窗口分类器检测字符。实验结果验证了所提算法的有效性。
2.提出基于随机森林的多特征字符分类方法。为解决字符级的文本检测,分析了多文本特征选取及分类器参数对文本分类效果的影响。训练出性能较高的基于随机森林的多特征文本分类器,实验结果验证了多特征在文本分类中的有效性。
3.提出基于文本空间上下文信息的文本定位方法。在条件随机场推理框架下,引入文本空间上下文信息,结合文本检测信息,进一步提高文本定位精度。实验结果验证了算法的有效性。