论文部分内容阅读
数字多媒体资源日益成为人们日常文化生活中的重要组成部分,对大量的影视视频进行场景结构分析和场景识别是基于场景语义的视频内容检索的基础。场景边界检测可以将影视视频分割为以场景语义为单元的视频片段,而对视频场景片段进行场景标签的自动标注可以得到视频片段的场景语义内容。针对基于场景相似图的视频场景边界检测算法计算量大的问题,采用基于滑动镜头窗的相似镜头聚类算法,对满足时间局部性的镜头进行聚类,并根据影视视频的场景发展模式,对同场景内的交错镜头类和相似的相邻镜头类进行合并,从而得到视频的场景结构单元。同时,针对只使用镜头视觉特征进行相似度计算容易造成运动场景过分割的问题,同时对镜头提取运动信息,使用镜头内视频帧间的视觉变化来衡量镜头运动量,并使用视觉相似度和运动信息的加权之和进行镜头相似度计算,由于考虑了镜头内的运动情况,可以有效解决打斗、追逐等运动场景的过分割问题。传统的基于底层特征的图像和视频表示方法,往往包含的语义信息有限,在处理高层语义任务时局限性较大。图像中包含的物体是一种很重要的视觉语义元素,使用Object Bank特征进行图像表示,在图像场景识别等视觉语义处理任务中取得了很好的效果,本文将Object Bank方法扩展到视频中,使用一组在影视视频常见场景中的代表性物体的识别器的识别结果对视频片段进行表示。首先对视频场景片段关键帧提取物体识别的统计信息,并将视频场景关键帧集合的最大池化和平均池化结果作为视频场景片段的Object Bank特征,使用SVM分类器进行视频场景的训练和识别。基于Object Bank的视频表示方法,在街道、卧室、餐厅、客厅的场景识别实验中,取得了很好的效果。通过视频场景边界分割和场景识别,可以获得影视视频的场景结构和场景语义内容,从而为基于场景的视频内容检索提供基础。同时,使用ObjectBank特征进行视频表示,包含了视频的物体语义信息,可以同时为影视视频提供基于物体内容的检索支持。