论文部分内容阅读
信息技术的高速发展促使网络中的视频数据高速增长,新闻视频作为关系人们衣食住行的一类重要视频受到人们的广泛关注。然而,随着新闻视频数据的急速增长,如何对新闻视频进行有效地管理、组织及检索已经成为人们亟待解决的的问题。传统视频检索方法依靠新闻视频的底层特征及人工标注,然而人们更希望通过语义层面来实现对新闻视频的检索,因此,新闻视频的语义分析是对新闻视频进行有效检索的基础。本文主要从新闻视频的结构语义、主题语义及高层语义三个方面对其进行语义分析,本文的主要工作如下:(1)本文提出了一种基于颜色加权的新闻视频镜头边界检测方法,由于新闻视频是一系列视频帧组成,对新闻镜头的镜头分割可以简化对视频的处理工作,镜头边界检测的准确度直接影响对新闻视频语义分析的效果。该算法利用加权的HSV直方图为特征计算帧间差,并与自适应阈值进行比较进而得到候选新闻视频镜头边界,由于新闻视频中经常出现闪光灯现象,因此本文提出抗闪光灯镜头边界的二次检测方法滤除闪光灯的影响,经实验表明,本文对新闻视频的边界检测具有较高的查全率与查准率。此外,在新闻视频边界检测的基础上,本文根据新闻视频自身的编辑特征,在人脸检测的基础上,完成了对主持人镜头的检测。(2)视觉特征一定程度上反映新闻视频的关键信息,本文选择的颜色特征主要是图像的主色调,纹理特征采用灰度共生矩阵的能量、熵、惯性矩及相关性四个特征值,本文提出将颜色及纹理特征进行非线性融合,同时考虑颜色及其对应的空间信息,这样,大大减少了视觉特征向量的维数,并利用SVM(Support Vector Machine)分类器对新闻视频进行语义分类,经实验结果可知,将颜色特征及纹理特征非线性融合的方式可以进行较好的新闻视频分类。(3)本文提出利用水平扫描及垂直扫描的方式进行字幕区域检测,在水平扫描时寻找连续多行相邻像素灰度差值平方和大于阈值的区域作为候选字幕区,并利用垂直扫描切割字幕两端。并完成了字幕区域的预处理、字符分割及特征提取等工作,然后,利用神经网络原理完成了文本识别。(4)最后,本文将视觉特征及文本特征融合,通过检测不同类别新闻视频所对应的关键字确定文本向量,并将文本向量与视觉向量线性组合形成最终的特征向量,根据SVM(Support Vector Machine)理论,采用双模态的方法对新闻视频进行语义分类,获得较好的实验效果。综上所述,本文系统的研究了新闻视频语义分析方面的研究,对新闻视频的结构语义及主题语义的分析后,通过将文本与视觉特征两种模态的融合实现对新闻视频的高层语义进行了研究。