论文部分内容阅读
基于内容的视频分析检索与索引技术是当前多媒体领域研究的热点之一。如何利用视频的数据特征提取视频中的精彩片段生成视频摘要具有很高的实用价值和广泛的应用前景。本文提出一种基于特征聚类的视频摘要生成方法,主要工作包括视频特征提取、特征降维、特征融合、特征聚类、基于聚类的关键帧提取和摘要生成几个部分。特征提取方面:本文选择的是颜色纹理特征CEDD(Color and Edge Directivity Descriptor)和视觉词汇直方图的融合特征。CEDD颜色纹理特征使用模糊分类的方法融合了颜色和纹理两种底层常用特征,实验效果良好,并且具备存储小、处理速度快的优势;另一方面,视觉词汇直方图是以基于SIFT特征为基础,量化到视觉词典生成的一个直方图描述。本课题的视觉词典是由K均值方法聚类而成,输入数据包括电影、动漫、新闻、音乐视频、体育、实时拍摄共计450万幅帧图片,最终将词汇容量选定为10000个。特征降维方面:为了能够降低后续处理的时间复杂度,本文对词汇直方图进行了 PCA主成分分析,降低了直方图维度,大大提高了计算能力。特征融合方面:对CEDD特征和降维后的视觉词汇直方图特征进行了融合,使特征的描述更加全面。在实验检测方面,课题利用平均归一检索秩(ANMRR)的方法对融合特征进行了检测,图像库选择的是检索领域常使用的James Wang数据库,最终发现融合特征的ANMRR值为0.24,检索性能明显优于其他特征的效果。特征聚类方面:本文选择的SGONG自适应聚类来提取关键帧。相比于其他聚类方法,该方法无需人为设定聚类个数,能够根据数据自适应聚类。课题对6个视频做了实验测试,采用查全率和查准率的方法对结果进行分析,并和传统的基于颜色特征的镜头分割方法做出比较,最终表明本文方法的查全率和查准率均高于传统的镜头分割方法。关键帧提取和摘要生成方面:从聚类结果中找出和类中心距离最近的帧当作关键帧,以类内帧数在总帧数中的所占比例决定各个类的关键帧个数,根据用户选择的视频摘要长度决定关键帧个数以及相关帧个数,最终生成任意长度的视频摘要,从而保证摘要的准确性和流畅性。实验对一个15分钟的新闻视频进行测试,分别生成了 90s和4min两种长度的摘要。其中90s的摘要包含101个关键帧和2207个相关帧,其中关键帧的正确率为