论文部分内容阅读
视频字幕往往包含了丰富的语义信息,与视频其它特征相比,更适于用作视频索引,因而对于视频字幕提取方面的研究备受关注。
本文对视频字幕提取的几个方面,包括字幕检测、字幕定位、字幕增强和字幕的二值化进行了研究。与文档图像相比较,视频中的字幕提取由于其较低的分辨率、复杂的背景、照明的变化、位置、形状与颜色的不确定而具有很大的挑战性。
为了便于后续的视频分析,首先进行了视频的镜头分割,然后利用计算相邻帧差的方法检测字幕事件。区域定位是字幕提取的关键一环,本文改进了投影分割的方法,实现了字幕区域的快速定位,然而,这种只依赖于字幕边缘特征的定位方法常常具有很高的误检率,因此,提出利用支持向量机对真实字幕和虚假字幕进行分类,从而将虚假字幕过滤掉。实验证明,这种将投影分析和支持向量机分类法相结合的方法不仅能够快速地定位出字幕区域,而且能够保证定位的准确性。
从一帧中定位出的字幕往往具有复杂的背景,但同一字幕事件中的字幕条前景相同,而背景可能不同。采用多帧平均法把属于同一字幕事件的所有帧进行字幕条叠加,可以起到平滑背景、降低噪音、提高分辨率的效果。
由于OCR识别器通常只接受二值图像进行文字识别,因此还需进行字幕图像二值化,本文根据字幕的不同情况,提出了两种二值化方法:对于具有丰富的彩色信息的视频字幕,利用基于模糊直方图提取字幕前景的方法对其进行二值化;对于噪点较多的字幕图像,利用机器学习方法中的多尺度条件随机场方法进行二值化。采用OCR工具对二值化图像进行识别的结果表明:相对于全局阈值法和局部阈值法,这两种方法对于复杂字幕的二值化都具有良好的效果。