论文部分内容阅读
近年来,随着可穿戴设备的增多以及互联网技术的发展,人与人之间的信息交互方式发生了巨大改变,由于图像、视频等多媒体数据具有更加形象生动的特征,所以可以更好地满足广大智能媒体用户的需求。然而,随着多媒体数据的爆发式增长,导致了一系列信息检索与空间存储问题。
视频摘要技术利用计算机自动地从原始长视频中提取关键的图像帧或视频片段作为重点摘要内容,使得摘要后的视频总时长缩短,同时还能够将用户认为的重要内容部分保留下来,使得人们能够快速得到感兴趣的视频信息。视频摘要技术可作为后续视频分类、视频检索、视频高效存储与传输等研究的预处理技术,其有助于进行快速有效的视频内容理解,逐渐得到计算机视觉领域研究人员的广泛关注。
在视频摘要研究领域中存在着两个主要挑战。首先,由于视频类别、拍摄内容、时间长短以及拍摄条件的不一致性,增加了对视频内容中的重要部分进行判定的难度,因此,视频自身内容的多样性是视频摘要技术的一大挑战。其次,由于不同用户的主观性差异,导致了用户对视频重要内容判断以及对摘要结果需求的不一致性,因此,用户主观性的需求和评价是视频摘要技术的第二大挑战。
针对以上问题,本文提出了基于语义内容理解的三个视频摘要算法,为增强算法模型对视频内容理解的能力以及针对用户主观性摘要需求进行设计,采用深度学习的方式进行视频摘要技术的实现。论文完成的主要工作如下:
(1)提出了一种基于特征金字塔结构的视频摘要算法。该算法将视频摘要视为序列连续决策过程,改进了用于图像语义分割的全卷积神经网络模型,设计了一种用于特征分析的金字塔结构模型,结合强化学习的无监督策略实现了视频摘要技术,在两个通用数据集SumMe和TVSum上的实验结果验证了特征金字塔结构预测模型与无监督的强化学习策略相结合的有效性。
(2)提出了一种基于多模态特征融合的视频摘要算法。该算法将视频摘要视为序列到序列的映射问题,实现了视频与文本多模态特征信息的融合,通过双向长短时记忆递归编码器-解码器体系结构构建视频摘要框架,在两个通用数据集SumMe和TVSum上的实验结果证明了多模态特征融合的有效性。
(3)提出了一种基于目标多标签分类的查询式视频摘要算法。该算法将视频摘要视为基于目标的多标签分类问题,通过卷积特征输入多层感知机后预测视频内容与多概念标签之间的相关性,并采用标签的互相关性对预测概率进行加权,最终选取与用户查询语句相关性最高的视频内容部分作为视频摘要输出。通过在查询式视频摘要数据集UTEgocentric上进行实验结果对比分析,体现了算法的优越性。另外,针对上述查询式视频摘要算法,设计实现了相应的用户交互系统。
视频摘要技术利用计算机自动地从原始长视频中提取关键的图像帧或视频片段作为重点摘要内容,使得摘要后的视频总时长缩短,同时还能够将用户认为的重要内容部分保留下来,使得人们能够快速得到感兴趣的视频信息。视频摘要技术可作为后续视频分类、视频检索、视频高效存储与传输等研究的预处理技术,其有助于进行快速有效的视频内容理解,逐渐得到计算机视觉领域研究人员的广泛关注。
在视频摘要研究领域中存在着两个主要挑战。首先,由于视频类别、拍摄内容、时间长短以及拍摄条件的不一致性,增加了对视频内容中的重要部分进行判定的难度,因此,视频自身内容的多样性是视频摘要技术的一大挑战。其次,由于不同用户的主观性差异,导致了用户对视频重要内容判断以及对摘要结果需求的不一致性,因此,用户主观性的需求和评价是视频摘要技术的第二大挑战。
针对以上问题,本文提出了基于语义内容理解的三个视频摘要算法,为增强算法模型对视频内容理解的能力以及针对用户主观性摘要需求进行设计,采用深度学习的方式进行视频摘要技术的实现。论文完成的主要工作如下:
(1)提出了一种基于特征金字塔结构的视频摘要算法。该算法将视频摘要视为序列连续决策过程,改进了用于图像语义分割的全卷积神经网络模型,设计了一种用于特征分析的金字塔结构模型,结合强化学习的无监督策略实现了视频摘要技术,在两个通用数据集SumMe和TVSum上的实验结果验证了特征金字塔结构预测模型与无监督的强化学习策略相结合的有效性。
(2)提出了一种基于多模态特征融合的视频摘要算法。该算法将视频摘要视为序列到序列的映射问题,实现了视频与文本多模态特征信息的融合,通过双向长短时记忆递归编码器-解码器体系结构构建视频摘要框架,在两个通用数据集SumMe和TVSum上的实验结果证明了多模态特征融合的有效性。
(3)提出了一种基于目标多标签分类的查询式视频摘要算法。该算法将视频摘要视为基于目标的多标签分类问题,通过卷积特征输入多层感知机后预测视频内容与多概念标签之间的相关性,并采用标签的互相关性对预测概率进行加权,最终选取与用户查询语句相关性最高的视频内容部分作为视频摘要输出。通过在查询式视频摘要数据集UTEgocentric上进行实验结果对比分析,体现了算法的优越性。另外,针对上述查询式视频摘要算法,设计实现了相应的用户交互系统。