论文部分内容阅读
随着视频采集设施的普及以及互联网技术的发展,人们可以很方便地在互联网上分享视频,这使得互联网上的视频数据呈现爆炸式的增长趋势。视频数据的增加一方面可以丰富人们的社交生活,但同时也不可避免地造成一些问题,例如,用户浏览视频时间变长,视频检索速度变慢,视频网站需要更多视频存储空间等。为解决这些问题,视频摘要技术逐渐兴起并引起广泛关注。摘要是对原始视频内容的概括和浓缩,从原始视频中选出可以概括视频内容的静态视频帧或动态视频片段组成视频摘要。视频摘要的长度远小于原始视频,因而用户能够在较短的时间内了解视频内容。另外,利用视频摘要技术还可以加快检索速度,同时也可以节省视频网站的存储空间。现有的视频摘要方法大多首先根据人对视频摘要属性的主观判断和约束(例如代表性、重要性等),建立相应的数学模型,然后利用构建的数学模型对候选打分,最后通过线性或非线性地融合策略获取候选摘要的属性分数,并利用属性分数作为选取视频摘要的依据。但是,这些构建的数学模型有时候并不一定能够准确地体现视频摘要的属性,而且根据个人经验或偏好定义的属性也很难满足所有用户需求。另一方面,一部分视频摘要方法是对视频帧子集打分,选取得分最高的子集作为摘要,而视频帧子集往往也是数目庞大,计算复杂度也偏高。针对这些问题,本文应用机器学习算法,实现对视频帧的自动打分,提出两种基于帧得分的视频摘要方法——基于排序学习的视频摘要和基于跨模态相似性的视频摘要。(1)在基于排序学习的视频摘要方法中,视频帧的分数代表视频帧与视频内容之间的关系,分数高说明该视频帧可以更好的体现视频内容。基于排序学习的视频摘要方法选取分数高的视频帧组成摘要。在该方法中,为了使得学习得到的排序函数可以更好的符合人对视频摘要的认知规律,该方法首先通过概率分布函数得到排序函数对视频帧排列的概率分布,同时,得到数据库中人工对视频帧排列的概率分布。最后用交叉熵损失衡量两个概率分布的差异,损失最小时对应的参数就是最优参数,此时的打分函数也很好地模拟了人对视频摘要的认知过程。该方法的主要思想是模拟人的视频摘要的认知过程来对视频帧打分,相比于对视频帧子集打分的方法,计算复杂度显著降低。另外,该方法没有预先规定摘要必须具有某些属性。因此,基于排序学习的视频摘要方法在一定程度上克服了现有方法的缺点,在数据库上的良好性能也表明了该方法对视频摘要任务的有效性。(2)基于跨模态相似性的视频摘要方法主要是利用文本信息生成视频摘要。相关研究成果表明,视频文本信息反映了视频描述内容,因此可以挖掘文本信息协助生成视频摘要。基于跨模态相似性的视频摘要方法首先利用深度学习模型计算文本到视频帧空间的相似性和视频帧到文本空间的相似性,然后融合两种相似性作为最终的视频帧与文本的相似性得分,相似性得分较高的帧被选为摘要。该方法在利用两个模态相似性的同时也考虑了模态各自的特有信息,充分利用了视频的文本信息,进而提升了视频摘要选取的精度。基于跨模态相似性的视频摘要方法也是对视频帧计算分数,也没有人为约束摘要,在某种程度上克服了现有方法的缺陷,实验结果验证了该方法的合理性和有效性。