论文部分内容阅读
随着视频内容的丰富,如何对大容量的视频内容进行有效的索引与检索,成为了热门的课题。视频内容中含有大量的文本信息,它们对视频画面起着描述、解释以及补充的作用,因此是视频索引与检索的重要依据。基于文本的视频索引与检索可以通过建立文本与视频内容间的有机联系来实现,而这种建立联系的工作涉及文本信息提取的操作。通常文本提取包含文本探测定位和文本分割。本文首先提出了一种基于混合特征的字幕文本定位方法,并给出详细的原理解释与实现过程。目前存在的混合特征方案中,有些先并行地对各特征进行探测,然后合并结果;有些按探测效率高低对各特征进行有先后的探测,但效果都不理想。本文方案构成如下:本文首先采用基于边缘探测的方法对候选文本块进行定位,因为该方法算法简单、查全率高,适合文本块初步定位工作,然后使用连通区域分析来修正文本的外接框,最后使用支持向量机(Support Vector Machine,SVM)对候选文本块进行筛选,排除在前一步骤中被误检为文本的非文本块。在对样本进行SVM训练时,考虑到SVM训练需要大量的时间和存储空间,本文对训练样本进行筛选。在已有方法的基础上,本文利用了同类(SVM中标识为同一类型)样本之间和异类(SVM中标识为不同类型)样本之间的欧氏距离大小作为提取准则,从整个样本集合中选取一部分样本进行训练。实验表明,本文的方法可以使用较少的样本进行训练来达到比较理想的训练效果。对于定位后文本块的分割,本文在已有方法的基础上建立了文本颜色信息和纹理信息的联合概率模型。在提取建模样本的过程中,以往的方法大多数只根据文字边缘信息来提取样本,提取的样本不够精确,本文在原有方法的基础上利用同一个文本块中其笔画宽度比较一致的特点来提取建模样本。从而使得训练的模型比较精确,因此本文建立的模型可以很好的将文字和背景分割开来。