论文部分内容阅读
随着网络视频的快速增长,用户快速准确捕获信息和管理感兴趣的视频内容的需求日益增长,工作强度越来越大。视频摘要作为一种快速感知视频数据集重要内容的技术较好地解决了此问题。传统的基于图的视频摘要算法通常将视频帧作为顶点来构建简单图模型,虽然具有较好性能,但是不能表征视频帧的复杂关系。另一方面,多视频摘要数据集具有多样性、冗余性以及噪声信息大等特点,也需要高级的图模型来对视频内容进行更好地表征。为了解决该问题,本文利用超图模型来描述帧之间的复杂高阶关系,另外借助视频的文本信息和网络图像的互补信息建模多模态图来表征视频帧之间的关系,进而研究多视频摘要技术。首先提出了一种基于超图主集的多视频摘要算法(Hypergraph Dominant Set Based Multi-Video Summarization,简称MVS-HDS)。MVS-HDS方法对预处理得到的视频帧构建超图模型并在超图模型上执行主集聚类算法,从每类中选择距离聚类中心最近的一帧作为候选关键帧;为了获得与主题相关性程度高且冗余性小的关键帧集,通过借助同一查询主题下的网络图像与视频帧之间的视觉共有特性来构建目标函数,提出一种查询相关最大边际相关度(Query Dependent Maximum Marginal Relevance,QD-MMR)方法。最后为了获得用户友好的摘要,进一步提出了基于图的局部近似排序方法(Graph-based Topical Closeness,GTC)对关键帧集进行排序呈现关键帧。其次提出了一种基于查询的加权原型分析的多视频摘要算法(Multi-Video Summarization with Query-Dependent Weighted Archetypal Analysis,简称MVS-MWAA)。该算法针对多视频摘要数据集冗余性、多样性等特点,首先利用视频的视觉信息、查询的网络图像的主题信息和文本描述信息的互补特性来构建多模态图模型;然后根据多模态图计算得到的权重矩阵引导加权原型分析方法将镜头检测获得的候选关键帧划分到不同原型集合中;最后根据原型集合和原型集合内视频帧的重要性分数来选择多视频摘要。两个所提方法在MVS1K和TVSum两个多视频数据集上进行实验分析,并与多种视频摘要算法进行了比较,验证了本文所提两类方法的有效性和先进性。