论文部分内容阅读
视频中的文本为描述视频内容提供了十分有用的信息,对于构建基于内容的多媒体检索系统具有重要作用。因此,有效地提取和识别这些文字对于图像理解、视频内容分析、基于内容的图像和视频检索等领域具有重要意义。目前商业的OCR技术对于二值图像中文字的提取识别已经趋于成熟,但视频中的文字具有分辨率低、背景复杂、文字形态差异大等特点,这给视频中文字的有效提取带来了极大的挑战,限制了OCR技术的成功应用。针对这些问题,本文主要围绕如何充分利用文字的各种特性,更鲁棒地从复杂背景图像中提取出文字进行了研究,具体研究了文字区域检测、文字恢复、文字分割这三部分的算法。在视频文字检测方面,本文提出了一种基于线条分类的视频文字检测算法。首先利用Canny算子对图像进行边缘检测,然后根据文字边缘线条的特征,过滤非字符的边缘线条,并利用文字线条区域的相似性,设置综合阈值,得到最终的文字区域。该算法在边缘检测的基础上,有效地利用了文字本身的结构特征和文字笔画的线条特征对文字区域进行判别,在获得较高查全率的同时大大降低了虚警,而且对不规则排列及发生形变的文字也能够准确定位,并对光照、阴影等条件不敏感。在文字分割方面,本文提出了一种融合多种处理方法的文字区域二值化算法。首先对发生了射影形变的文字进行文字恢复,消除了射影形变对文字识别的影响,然后通过综合局部二值化,文字极性判断和连通分量分析等方法有效地过滤了文字区域中的背景,使文字区域二值化效果得到较大的提高,对具有复杂背景、受光照和阴影影响及发生了射影形变的文字都能够有效地识别出来。本文针对所提出的算法选取了四种不同类型的视频中的关键帧,并从网上收集了包括各种类型文字的图片,构建了一个实验数据集合,并对这个测试集合进行了详细而全面的实验。实验结果表明本文算法具有较高的检测和识别性能,能够比较有效地检测和识别出各种不同类型的文字。