论文部分内容阅读
近年来,随着互联网技术和视频技术的研究发展,网络上的视频数量越来越多,想要在海量的视频数据中准确提取自己所感兴趣的视频数据也是一个困难的事情,因此视频的检索技术应运而生,研究人员提出了一种新的视频检索技术:基于内容的视频检索技术(Content-Based Video Retrieval, CBVR)。CBVR技术的基本思想是提取视频数据的特征构成描述视频内容的索引,但是图像中的纹理、颜色等底层的特征信息无法最精确的表述视频的内容,研究人员逐步向着提取视频高层语义的方向发展。视频的字幕信息包含了视频中的大部分高层语义,能够准确的描述视频的主要内容,因此如果能有效的提取视频字幕将会为视频的检索提供很大的帮助。然而视频字幕一般分辨率较低,而且通常还镶嵌在复杂的背景图像中,无法直接使用OCR技术进行字幕的识别,因此想要准确提取视频字幕信息就要克服这个困难。本文综述了视频字幕提取的发展状况,分析了目前的一些视频字幕提取的方法,针对视频字幕提取的难点,提出了有关视频字幕提取的一些新的方法:一是基于角点密度检测的字幕区域的检测方法。这种方法利用视频图像中字幕区域的角点信息都比较密集的特征去检测字幕区域,首先检测到图像的角点信息,然后筛选出角点密集的区域作为候选字幕区域,最后制定启发式规则过滤掉一些干扰区域,得到最后的字幕区域。二是基于字幕本身特性的二次二值化的方法。一般二值化的方法有全局阈值和局部阈值的方法,但是不管是全局阈值和局部阈值,二值化的结果都和阈值的选取有关,阈值会影响二值化的效果。本文提出了一种基于字幕本身笔画和颜色信息的二次二值化的方法,首先利用字幕的笔画特征得到笔画图,完成第一次二值化,然后利用字幕的颜色信息提取字幕图像中笔画密集的区域,最后通过连通域分析的方法滤除一些噪声得到最后的二值化的结果。