论文部分内容阅读
传统的视频检索都是基于视频人工标注的关键字检索,但是当视频的数据量非常大的时候,需要消耗的人力会急速的增加。因此采用了一种基于视频样本分类的事件库构建方法。基于语义内容视频事件库建立的主要目的就是对一段视频的主体目标和事件语义进行识别。视频的高层语义内容比较直观,要对其进行识别需要建立一个其与底层特征之间的对应关系。视频由一系列连续的图像帧组成,而视频的主体目标可以选取几帧具有代表性的帧来识别,这些具有代表性的帧被称为关键帧。SURF描述子代表了帧的特征点,当视频中出现变化较大的画面时相邻帧之间的匹配特征点的数目也会急剧下降,因此根据SURF描述子的匹配率来识别出视频的关键帧。视频相比较图像多了时间上的连续性,而视频主体目标的轨迹数据能很好的反应出视频在时间上的连续性,因而采用运动目标轨迹数据提取常用的方式(通过混合高斯模型识别出视频的对象,然后采用Came Shift算法提取出对象的轨迹数据)。视频关键帧和主体目标的轨迹数据没办法直接对视频事件进行识别,关键帧能反应出视频主体运动目标对象,因此提取出视频关键帧的底层特征向量后对视频主体对象做一个初步的分类。通过观察发现视频复杂场景下视频关键帧的数量和关键帧内背景目标有很大的差异,因而采用了基于视觉单词的词频向量对视频的场景语义做了一个聚类。轨迹数据没办法直接用来识别视频事件,提出了一个七维向量来量化一段轨迹数据和每一维向量的权值计算方式。不同的视频往往提取出的轨迹数据的数量不同,因而提出了一种基于不同轨迹数据数量的视频之间相似度计算方法。最后在对视频测试样本数据集采用K最近邻算法对视频语义进行预测,当事件库中的视频数量过大时,跟每一段视频进行比较花费时间过多,因此采用了随即抽样对事件库中的视频进行不完全的比较,实验结果显示两者预测准确率在同一水平线上,但是速度能得到很大的提高。