论文部分内容阅读
通过新闻视频节目获取信息是现代社会人们日常生活的一种非常重要的方式。在基于视频内容分类检索中,准确的新闻视频标题定位和提取在检索过程中起着极其重要的作用,因此它已成为多媒体信息处理领域重要的研究方向。然而新闻视频的分辨率较低,并且经常嵌入在复杂的背景中,这给文本定位和抽取造成了极大的困难。接下来着重研究复杂背景下的新闻视频中文本定位和抽取的问题,提出了一种基于角点的新闻视频字幕提取方法,下面是具体的步骤:一是针对当前的基于角点定位算法易产生虚警率的问题,提出了一种基于角点的多层过滤机制从而逐层降低基于角点的文本定位的虚警率。在整个字幕定位过程中,所有定位算法都是基于角点,因为角点能够准确的描述视频中文字的特征,且不同的对比度下具有不变性的特点。首先检测出视频帧中的角点,然后再利用角点多层过滤机制能够精确定位复杂背景下的文本行,即先通过角点聚类去除孤立角点,减少噪声对下一步文本行定位的影响;再通过角点水平投影过滤掉不符合文本行特征的角点,得到候选文本行图像;最后通过水平滑动窗口过滤掉文本行的残留背景区域或者伪文本行,得到最终的文本行图像。二是针对当前文本抽取算法不能够很好的完成不同对比度复杂背景下的图像二值化问题,提出了极性判断+二次二值化的文本抽取算法。首先采用新颖的极性判断算法判断文本行中文字的极性,该极性判断算法经过大量实验验证和统计,算法极为可靠,同时具有很高的准确率。然后在第一次二值化的时候,根据极性判断结果,自动调整第一次二值化的阈值,再然后通过局部二值化进行第二次二值化,并根据极性判断修正局部二值化阈值,从而得到保留更多笔画细节的二值化图像。最后,把文本抽取后的文本行图像送入OCR(光学字符识别)插件中进行文字识别,本文采用开源的Tesseract-OCR。实验结果验证了本文提出的新闻视频字幕提取方法的可行性和有效性,即使在复杂程度很高的背景和环境下,该方法也具有较高的稳定性和准确率。