论文部分内容阅读
图像中的文本包含大量有价值的信息,是智能控制系统和信息检索系统的重要处理对象。手机等便携式图像采集设备的普及使图像和视频数据的数量高速增长。利用计算机代替人来处理、识别和理解图像中文本信息的需求越来越强烈。现有技术条件下,计算机识别和理解图像中文本信息的能力仍然难以满足实际应用的要求,有效地分析和提取图像中文本信息,尤其是场景图像中文本的分析技术是当前急需解决的技术难题。局部特征具有位移、尺度、旋转乃至仿射不变等优良特性,基于局部特征的方法能够在很大程度上克服场景图像中不利因素的影响,有必要对局部特征方法在场景文本分析技术的应用进行系统化的研究。本文的研究工作着眼于利用局部特征的特性来提高场景文本分析方法的性能,对不同条件下基于局部特征的场景文本分析方法进行了系统化的研究。本文针对视频中字幕文本的分析与处理问题,提出一种基于宽进严出的策略的视频文本检测方法。该方法针对视频帧中存在多种不同尺度的文本内容的情况,通过在多个尺度上进行基于局部特征的文本区域检测来提高系统的召回率。在此基础上,本文提出一种基于笔划宽度特征的文本区域鉴别方法,引入候选区域内部笔划宽度的分布信息来提高文本区域鉴别的准确率。由于笔划宽度提取过程中存在未知的极性参数,本文提出一种半监督多示例学习算法,该方法能够在监督信息不完整的情况下获取有效的文本区域分类器,从而更准确地剔除候选区域中的非文本内容。实验表明上述方法具有较快的运行效率和较高的召回率,准确率也达到较高水平。场景字符具有类别多,类内差异大的特点。传统的OCR方法难以在场景字符识别任务中取得理想的效果。本文对场景字符的识别问题进行研究,提出一种基于集成学习和模型压缩的场景字符分类方法。集成学习方法能够显著地提高分类器的泛化能力,但集成分类器往往速度较慢,占用空间较多。为了解决这一问题,本文提出基于边界样本和局部分类器的模型压缩方法,该方法能够显著地减少需要的伪样本数量,高效地将集成分类器压缩为更简洁的压缩分类器。此外,本文提出一种基于局部特征和时空直方图的字符特征。实验结果证明上述两种方法的结合能够显著地提高场景字符识别的准确率。受到图像质量和现有技术水平的限制,部分场景文本难以被准确地分割成独立的字符。本文针对这一现象提出了一种基于词图像的文本分析方法。该方法以词图像作为文本分析的最小单位,在视觉词袋模型的基础上,利用随机森林投影方法对局部特征进行编码并计算词图像的的特征矢量。在训练随机森林的过程中,该方法采用无监督的方式,解决了场景图像词图像样本收集困难的问题。该方法具有快速性的特点,并且能够有效地描述词图像,具有良好的可靠性。词图像无监督聚类实验的结果证明了基于词图像的场景文本分析方法的可行性。在复杂场景图像中,文本区域检测往往难以得到精确的结果,导致整个场景文本分析系统的性能下降。本文提出了基于Constellation字符模型的文本分析方法。该模型用局部特征的集合描述整个字符,使用概率模型对局部特征的表观信息以及位置关系建模,进而计算字符出现的概率。与基于全局特征的方法相比,Constellation字符模型更加灵活,能够更有效地处理复杂场景图像中的文本内容。