基于视频内容的动态摘要生成算法研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户：you3880066

【摘要】

：

【作者】

：

潘晓容

【机构】

：

西安理工大学

【出处】

：

西安理工大学

【发表日期】

：

2021年01期

【关键词】

：

动态视频摘要双流特征融合自注意力机制 Bi-LSTM 帧间得分差异

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网上各种视频数据的爆发式增长,如何快速了解视频的主要内容,缩短浏览时长成为了一个亟待解决的问题。视频摘要通过提取视频中的重要帧或者片段,生成能代表原视频主要内容的短视频,可以给人们提供一种快速了解视频内容的方式,因此成为了目前的研究热点之一。本文基于对视频内容的分析来研究动态视频摘要生成算法,得到能够描述视频整体内容的摘要视频。将视频分为多个片段,估计所有视频帧的重要性从而衡量每个视频片段的重要程度,选出重要程度高的视频片段生成摘要是目前视频摘要算法的主流研究方向之一。在该方法的整个流程中,对视频帧重要性的定量评估是解决问题的关键。针对目前视频摘要算法特征提取过程中存在的仅提取视频帧图像特征,忽略了视频中运动信息的问题,本文通过计算视频相邻帧间光流信息得到光流图,采用三维卷积神经网络提取光流图特征引入运动信息,并构建双流特征融合模块有效融合光流特征和图像特征以更好的表征视频内容。进一步地,为了获取时序信息的同时考虑视频当前帧和其他帧之间的不同相关性,本文结合Bi-LSTM和自注意力机制进行视频帧重要性的估计,使视频模型能更准确地衡量视频内容的重要程度。视频摘要算法中对视频帧重要性估计时得到的帧间重要性得分差异较低,容易导致生成摘要时不能选到真正重要的视频内容。针对此问题,本文引入方差对帧间得分差异大小进行度量,在损失函数中加入包含帧间得分方差值的约束项,使摘要模型在对视频内容的重要程度进行估计时能够考虑到得分之间的区分性,增大得分差异,将重要的视频内容选到摘要中。最后在SumMe和TvSum两个标准数据集上进行了实验和分析,充分验证了本文算法的有效性。

其他文献

基于视频流的无人机目标识别方法研究

随着无人机技术的发展,无人机拍摄在航空摄影,地形测绘,军事侦察等方面具有广泛的应用前景。本文主要研究无人机俯拍视频中的目标识别问题,分析现有的运动目标识别方法,提出融合目标跟踪与图像识别的运动目标识别方法。以无人机俯拍视频中的运动目标作为研究对象,进行跟踪标定及分类识别。针对识别方法的实时性问题,提出基于数据去冗余的改进方法,通过仿真实验验证基于视频流的无人机目标识别方法。本文主要研究内容如下:（

学位

无人机目标视频流图像目标跟踪目标识别

基于显著性区域的无参考图像质量评价方法研究

图像质量评价在数字图像处理技术中占据着重要地位,分为主观图像质量评价和客观图像质量评价两种。主观图像质量评价需要消耗大量的人力,且无法嵌入到实时应用的系统中去,因此需要研究能够适用于多种场合的客观图像质量评价方法。客观图像质量评价方法分为全参考、部分参考和无参考三种。在多数情况下,参考图像难以获得,因此无参考图像质量评价方法具有更广泛的应用场景。无参考图像质量评价算法BRISQUE（Blind/R

学位

图像质量评价无参考HVS显著性区域BRISQUE感知特征

基于改进WGAN的图像去噪方法研究

数字图像是大数据时代人类感知与传播信息的重要载体,在数字图像产生与保存的过程中会引入不同程度的噪声,图像质量差会对信息的获取产生很大的影响,使得后续对于图像的处理存在极大的不确定性,阻碍图像处理技术的发展。图像技术在多领域的普遍应用,使得数字图像质量增强技术的研究已经成为图像处理方面十分具有现实意义的内容,图像去噪作为进行图像研究的预处理问题,具有十分深远的意义。图像去噪判别模型由于其良好的去噪性

学位

生成对抗网络深度卷积网络残差网络图像去噪

基于稀疏表示的多源图像融合方法研究

受到传感器成像机理与材料工艺的限制,由传感器采集到的单一类型图像数据难以全面、准确、清晰地描述场景中的信息。多源成像传感器可提供同一场景下类型不同的图像数据。多源图像融合技术的目的是尽最大可能提取来自多源信道图像数据的互补信息,生成包含更多场景信息的融合图像。现阶段,多源图像融合技术在数码摄像、视频监控、医疗诊断和遥感目标检测等领域得到了广泛应用。本文针对多聚焦图像融合和红外与可见光图像融合中信息

学位

多源图像融合稀疏表示联合卷积分析与综合稀疏表示联合低秩稀疏分解区域能量

基于编解码模型的视频文本描述算法研究

随着深度学习的发展,人工智能对人类社会生活带来了很大的便利。视频文本描述作为视频内容分析的重要分支,推动着视频检索与视频个性化推荐的进一步发展。视频文本描述算法需要对视频中包含的视觉内容使用自然语言进行文本描述,且要求该描述语句具有准确性、可读性与流畅性。目前在基于编解码模型的视频文本描述算法的研究中,将视频高级语义信息作为视频语义特征,能够有效地辅助解码模型更准确的将视频视觉特征转化为文本描述。

学位

视频文本描述highway layer结构视频语义单词差异放大模块单词注意力机制单词特征增强

基于情感特征解耦学习的表情识别方法研究

面部表情识别在情感计算中占有重要地位,已被广泛应用于人机交互、驾驶者异常监测、疼痛估计、远程教育等领域。人类表达情感的方式并不相同,即使传递同一种情感,面部表情也因人肤色、性别等身份属性的不同存在差异。目前常用的深度学习方法能够有效地提取图像语义特征完成表情识别,但由于现有的表情数据集样本偏少,仍难以学习到与个人身份无关的表情特征。本文研究了基于情感特征解耦学习的表情识别方法以解决表情特征与身份特

学位

表情识别解耦表示学习深度神经网络多任务学习表情残差学习

基于非负矩阵分解的降维方法研究与应用

大数据时代,数据以维数高、知识体系混杂、数据量大等特点呈现,给基于数据的研究带来巨大的挑战。维数约减是从高维数据中抽取知识、形成组织、发现内在规律,进而减小冗余、增强特征价值密度、提高后续计算效率的有效方法。非负矩阵分解（Non-negative matrix factorization,NMF）作为非线性且带有非负约束的矩阵分解降维方法,具有可解释性、计算简便、大规模处理数据等优点,因此广泛应用

学位

非负矩阵分解维数约减范数鲁棒性稀疏性

基于判别式分类器的视频目标跟踪算法研究

目标跟踪是计算机视觉领域中的一个重要研究方向,已广泛应用在城市视频监控、城市智能交通、移动机器人目标跟踪、无人机飞行、虚拟现实和医学检测等多个研究领域。在实际应用中,常常出现目标遮挡、运动模糊、背景与目标相似、背景杂乱等情况,这些情况对跟踪算法的性能提出了很大的挑战。基于判别式分类器的目标跟踪算法因其效率高、效果佳的优势逐渐成为目标跟踪领域的主流研究方向,基于此,本文对基于判别式分类器的目标跟踪算

学位

目标跟踪判别法相关滤波卷积特征深度学习孪生网络

基于RGB-D相机的高精度实时轻量级SLAM

无人驾驶技术是一个庞大且复杂的系统性工程,但其核心始终离不开传感器、定位与导航技术。全球定位系统（CPS）作为目前主流的定位技术无法满足厘米级的定位和避障,且在室内和城市中无法做到全覆盖。而基于计算机视觉的定位技术很好的补充了 GPS这一短板。同步定位与建图（SLAM）旨在实现三维场景重建以及成像传感器的相机位姿估计。目前主流的SLAM算法对计算性能的要求较高,往往需要高性能图形处理单元（GPU）

学位

SLAM定位三维重建导向滤波RGB-D

基于线结构光的旋转物体动态三维测量方法

结构光视觉测量法是一种基于光学的三维测量技术,现有的研究主要是针对静态对象的三维测量,这对于文物保护、医疗手术、工业元件制造等方面具有极大意义。但对于高铁轮毂、空气预热器转子这类测量精度要求高、停机损失大的动态旋转对象,三维测量技术并没有取得很大的进展。本文的研究重点就是实现对旋转物体的动态三维测量。本文基于线结构光法和双目立体视觉原理,提出了一种不干扰被测物体运行状态、操作简单、无需标定转轴的三

学位

线结构光立体视觉动态三维测量旋转物体点云配准

基于视频内容的动态摘要生成算法研究

与本文相关的学术论文