面向解码器视觉注意力机制的视频摘要研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:yshanhong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着多媒体和移动互联网技术的迅猛发展、视频采集设备的普及,海量的视频数据给视频检索、视频监控、视频归档等应用领域带来了巨大的压力,而视频摘要技术作为一种快速浏览和理解视频内容的方式引起了广泛的关注。为此,本文针对有监督的、利用深度学习方法的视频摘要展开了研究。本文设计了一种新颖的视觉注意力机制,与现有的编解码器框架结合起来,提出一种面向解码器注意力机制的有监督视频摘要算法。与以往的注意力机制聚焦于编码序列不同,本文的注意力机制考虑到视频帧之间的内在关联性,利用长短时记忆网络,将注意力集中在历史的解码序列,融合历史的解码信息有效地指导当前的解码过程,提升模型预测的准确性。本文的算法主要分为视频分割、视频特征提取、视频镜头重要性度量、关键镜头的提取四个步骤。具体地,利用KTS算法分割视频镜头,然后通过预训练的卷积神经网络提取视频帧的特征,接着利用所提注意力模型预测视频帧的重要性分数用于衡量视频镜头的重要性,最后利用动态规划方法生成视频摘要。所提算法在SumMe,TVSum,YouTube,OVP四个常用数据集上进行了大量实验,验证了其有效性及先进性。
其他文献
模块化多电平换流器(Modular multilevel converter,MMC)作为一种新型的电压源型换流器,有着高度模块化的结构,可以叠加输出很高的电平,开关频率低,输出电压波形良好,在高压
青藏高原是世界屋脊、亚洲水塔,是地球第三极,高原上广袤的草地是我国重要的生态安全屏障。我国是世界上沙棘植物种质资源蕴藏量最丰富的国家。中国沙棘是青藏高原东缘最主要的沙棘属植物亚种,分布范围广,资源数量庞大,其对该地区水源涵养、生物多样性保护具有非常重要的生态学意义。当前,大量关于灌丛草地的研究主要集中在北美大陆和非洲南部等干旱、半干旱地区。对沙棘灌丛的关注也仅仅以其经济价值、遗传资源保护等方面居多
登革热和血吸虫病分别是由感染的蚊子和感染的钉螺在人或动物之间进行传播的疾病.这种通过媒介进行传播的疾病严重威胁着人们的身体健康,已被世界卫生组织列为一类需要重点预防的传染病.本文基于登革热,血吸虫病等媒介疾病的一些典型特征,建立和分析了两类生物动力学模型:一类是根据蚊群的生长发育特点,运用时滞描述了蚊子的成熟阶段,建立和研究了具有时滞和不同投放方式的蚊群控制模型.该模型分析了不育蚊子三种投放方式(
随着经济的快速发展,可利用的化石燃料日益枯竭,开发清洁可再生能源成为首要任务。因此,锂硫电池作为电能存储装置开始受到了极大的关注。然而,锂硫电池一直存在着几个难题,
随着计算机在当今社会越来越普及,人机交互的研究将对其产生积极的影响。其中手势被认为是一种可以提供更自然、创造性和直观的人机交互技术。随着Kinect等深度摄像机的出现,
二阶常微分方程在科学与工程的许多领域中出现,如天体力学、量子力学、理论物理与化学等,它通常具有周期解或振荡解,这给数值求解带来了困难.近年来,二阶常微分方程数值方法的研究备受人们的关注,并取得了大量的研究成果.Runge-Kutta-Nystr?m-方法(RKN-方法)是求解二阶常微分方程的重要数值方法.本论文主要将RKN-方法当作复合线性方法处理,利用递推关系得到方法的阶条件.主要内容如下:第一
随着计算机网络技术和多媒体技术的快速发展与普及,社交网络已经成为人们生活中不可缺少的一部分。在此背景下,图像作为用户产生的主要内容之一记录了生活中的方方面面。人类
为了更加快速和简便的预测土壤有机碳空间分布状况,本文利用名山区289个采样点表层土壤有机碳(0~20 cm),结合Landsat 8遥感影像各波段,并引入地面辅助因子,共同建立有机碳含
背景:疟疾在热带和亚热带国家的大部分地区具有很高的发病率和死亡率。每年在病例数下降一段时间后,疟疾发病率再次上升,部分原因是疟原虫对药物和杀虫剂的抵抗力增加。γδT
由于全球经济的迅猛发展,经济全球化步伐的不断加快,国家之间,经济组织之间的竞争都发生了巨大的变化,如何在国际经济社会中站稳脚跟并且在重要领域始终占据一席之地,是每个