基于深度学习的视频精彩片段检测

来源 :江苏科技大学 | 被引量 : 2次 | 上传用户:ciweiqiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着便携摄像机和智能眼镜等可穿戴设备的普及,人们可以通过视频记录自己的生活。但是,在各种时间、地点,以不同的目的上传的原始视频,大多数时间长度差异很大(短则几分钟,长则几小时)且充满噪声。浏览那些既冗长又没有固定结构的视频会浪费大量的时间而且枯燥无味,因此如何自动选出视频中的关键部分(重要或是特别有趣的片段)即视频精彩片段检测任务成为解决这个问题的关键。现有的大多数视频精彩片段检测方法都是提取视频整体特征,并没有考虑时空局部特征之间存在着差异。由于视频内容的复杂性,这种混合特征将会影响最终精彩片段的检测效果。通常,对于一段完整的视频,在时间维度上,并不是所有帧都值得欣赏,因为有些帧只包含背景环境没有人或其他运动物体。在空间维度上,当存在背景杂波时也不是每个区域都很重要。为了解决这些问题,本文主要做了以下工作:(1)提出了一种基于局部区域信息的深度排序模型,它可以在空间维度上找出关键区域。模型在卷积特征图的基础上为每个区域学习了一张位置敏感分数图,并借助高斯核进行位置池化操作,将图中响应值较高的区域提取出来作为该帧的重要信息,并通过考虑局部关键信息输出一个较好的分数来预测视频精彩片段。模型中的位置敏感机制可以很容易地嵌入至一个端到端的全卷积网络中,以便通过随机梯度下降的方法在反向传播过程中更新网络参数,提高模型的鲁棒性。(2)提出了一种三维(二维空间与一维时间)注意力模型,它可以在没有额外监督信息的情况下自动定位视频中关键区域。该模型可以在时间和空间维度上生成视频局部区域的注意力权重,关键区域具有较大的权重值。这样,模型可以获得一个更有效的特征表示来预测精彩分数。三维注意力机制同样可以很容易地嵌入到一个传统的端到端深度排序模型中,有助于学习一个深度神经网络来计算每个视频段的精彩分数,从而完成视频精彩片段检测任务。(3)在YouTube和SumMe这两个公开数据集上进行了大量实验,并与一些性能较好的方法进行比较,结果表明本文提出的模型明显提高了视频精彩片段检测的准确性。特别地,通过使用本文提出的三维注意力模型,在没有人工辅助的情况下,许多领域视频的精彩片段可以在时间和空间维度上被准确地检索出。
其他文献
《国有土地上房屋征收与补偿条例》的颁布,为我们解决城市化进程中的拆迁问题迈出了具有关键意义的一步。以征收替代拆迁,在征收的制度下解决拆迁问题已成为必然。然而《国有
伴随着工业、农业、旅游业以及交通业等多行业的迅速发展,土壤重金属污染问题日益严重,治理土壤中的重金属污染已成为当前研究的热点。镉是存在于土壤中的典型重金属污染物,在环境中具有作用周期长、移动性大、生物毒性高以及难降解等特点,较易被植物吸收并残留于体内,且通过食物链富集作用危害动物和人类的健康。固化/稳定技术因操作简便、效果良好,已成为比较成熟的重金属污染土壤治理方法。目前,单一的固化修复材料运用于
随着我国城市化进程不断加快,以城市人口为代表的外生性指标已经不足以反映我国城市化进程的深切内涵,因而,作为内源性动力的受众对城市的归属感与对城市身份的认同日益成为
智能合同是一种新型的合同形式,而不仅仅是一段代码,其本质上是属于合同的;而作为合同新型形式的智能合同,其属于书面形式的合同。智能合同作为传统合同的一种,因为其特殊性,
写实人物油画创作是作者在研究生阶段主要的研究方向和创作形式。在创作《时光》系列油画创作之前,作者画过多幅关于写实人物的写生与创作。本文是作者对《时光》系列油画创
本论文以作曲家张旭儒创作的管风琴与人声、打击乐队协奏曲《拂云鸣钟》为例,进行浅析如何利用管风琴自身的特色与其他乐器结合以达到理想的音乐效果。全文通过三个切入点进
随着“微博、微信、移动客户端(APP)”为代表的网络平台的出现,形成了一个蕴含信息传播、人际社交、生活方式等多方面有影响的网络新空间,公众由此进入了“微时代”。城市新
韩国当代女作曲家朴泳姬生于1945年11月30日出生于韩国清州,她的创作手法通常将韩国文化和音乐风格混合在一起。这一特点成为了她独特的音乐语言。她的作品中通常会出现“母
“流动人口巨大”是我国当前人口国情的一大特点,并且以自西部向东南沿海流动为主要流向,以珠三角、长三角、京津冀三大区域为主要流入地,其中少数民族流动人口数量已经超过3
群团组织自诞生之日起,就被赋予了“党和政府联系人民群众的桥梁和纽带”的使命,具有政治性、群众性双重角色,对社会的发展变革有着十分重要的作用。在全面深化改革的大背景