基于语义内容理解的视频摘要方法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:y810417
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着可穿戴设备的增多以及互联网技术的发展,人与人之间的信息交互方式发生了巨大改变,由于图像、视频等多媒体数据具有更加形象生动的特征,所以可以更好地满足广大智能媒体用户的需求。然而,随着多媒体数据的爆发式增长,导致了一系列信息检索与空间存储问题。
  视频摘要技术利用计算机自动地从原始长视频中提取关键的图像帧或视频片段作为重点摘要内容,使得摘要后的视频总时长缩短,同时还能够将用户认为的重要内容部分保留下来,使得人们能够快速得到感兴趣的视频信息。视频摘要技术可作为后续视频分类、视频检索、视频高效存储与传输等研究的预处理技术,其有助于进行快速有效的视频内容理解,逐渐得到计算机视觉领域研究人员的广泛关注。
  在视频摘要研究领域中存在着两个主要挑战。首先,由于视频类别、拍摄内容、时间长短以及拍摄条件的不一致性,增加了对视频内容中的重要部分进行判定的难度,因此,视频自身内容的多样性是视频摘要技术的一大挑战。其次,由于不同用户的主观性差异,导致了用户对视频重要内容判断以及对摘要结果需求的不一致性,因此,用户主观性的需求和评价是视频摘要技术的第二大挑战。
  针对以上问题,本文提出了基于语义内容理解的三个视频摘要算法,为增强算法模型对视频内容理解的能力以及针对用户主观性摘要需求进行设计,采用深度学习的方式进行视频摘要技术的实现。论文完成的主要工作如下:
  (1)提出了一种基于特征金字塔结构的视频摘要算法。该算法将视频摘要视为序列连续决策过程,改进了用于图像语义分割的全卷积神经网络模型,设计了一种用于特征分析的金字塔结构模型,结合强化学习的无监督策略实现了视频摘要技术,在两个通用数据集SumMe和TVSum上的实验结果验证了特征金字塔结构预测模型与无监督的强化学习策略相结合的有效性。
  (2)提出了一种基于多模态特征融合的视频摘要算法。该算法将视频摘要视为序列到序列的映射问题,实现了视频与文本多模态特征信息的融合,通过双向长短时记忆递归编码器-解码器体系结构构建视频摘要框架,在两个通用数据集SumMe和TVSum上的实验结果证明了多模态特征融合的有效性。
  (3)提出了一种基于目标多标签分类的查询式视频摘要算法。该算法将视频摘要视为基于目标的多标签分类问题,通过卷积特征输入多层感知机后预测视频内容与多概念标签之间的相关性,并采用标签的互相关性对预测概率进行加权,最终选取与用户查询语句相关性最高的视频内容部分作为视频摘要输出。通过在查询式视频摘要数据集UTEgocentric上进行实验结果对比分析,体现了算法的优越性。另外,针对上述查询式视频摘要算法,设计实现了相应的用户交互系统。
其他文献
随着科技迅速发展,无线通信和信息处理方面的理论应用研究得到了研究人员的广泛关注。面对一些复杂的优化问题,当传统方法不能得到较好的结果时,一些研究人员从自然界法则和生物系统中受到启发,设计出一些启发式智能计算方法——智能优化算法,其中群智能算法是一大类模拟生物种群行为的智能算法。狮子作为食物链顶端的动物,比较擅长合作捕猎,近年来模拟狮群行为的群智能算法得到了许多学者的研究。  狮群优化算法是一种模拟
随着信息技术的蓬勃发展和高效视频编码(High Efficiency Video Coding,HEVC)的普及,HEVC视频在人们生产和生活中的作用更为重要。然而,由于HEVC视频缺乏有效的版权保护措施,盗版视频流通猖獗,各种侵权问题和维权之争层出不穷。因此,针对HEVC视频的版权保护已迫在眉睫。鲁棒视频水印,是目前解决视频版权纠纷的一个重要技术手段。本文研究了两类鲁棒视频水印:原始视频水印和压
学位
计算机辅助诊断(Computer Aided Diagnosis,CAD)研究是一个快速增长的活跃领域,利用CAD技术对人体部位的CT影像进行处理,可以为医生提供实用的参考信息,辅助医生对疾病做出准确的诊断,有效减少漏诊、误诊的情况发生。本文开展基于CT影像肺结节良恶性多种病理类型的云端人工智能辅助诊断系统开发研究,旨在设计一套集CT显示、肺结节提取、肺结节分类诊断等功能的计算机辅助诊断系统,辅助
明确肺结节的良恶性病理类型,对制定精准有效的诊疗方案至关重要。基于深度学习的辅助诊断方法可以减少对医生个体经验和工作状态的依赖,提升诊断效率。然而,现有的公开数据集中鲜有经病理学确认的肺部CT影像数据,无法保证样本标注的准确性和可信度。为更好满足临床需求,依据本课题组从合作医院、研究所采集的经金标准确认的肺部CT影像数据,开展了基于3D多分辨注意力胶囊网络的肺结节良恶性多种病理类型辅助诊断方法研究
医学图像配准是临床医学研究中处理医学图像信息的关键技术,传统方法主要依赖于医生人工标识的特殊标记物作为关键点来指导图像配准,但是该过程复杂而冗长,较为依赖医生经验,容易出现错误。随着数字图像的不断发展,传统方法已经无法应对越来越多的高精度医学图像。因此,使用深度学习(Deep Learning,DL)网络进行医学图像配准逐渐成为研究热点,其中针对高精度数字图像的配准方法研究主要使用端到端的配准方法
多站无源定位技术因其隐蔽性好、作用距离远和成本低等优点在军事领域和民用领域都具有十分广泛的应用。特别是在电子对抗领域,无源定位不主动对外发射电磁波,而是利用目标发射或反射的电磁波,实现对敌方无人机(UAV)、雷达等设施的静默定位,在现代化战争中发挥着愈发重要的作用。目前,无源定位中常用的定位参数有:到达角(AOA)、到达时间差(TDOA)、到达频率差(FDOA)和接收信号强度(RSS)等。本文从几
技术总是在变革中发展,移动通信系统在过去的几十年里迅速地由第一代移动通信技术(1G)发展到已经展开大规模商业部署的第五代移动通信技术(5G),再到目前许多国家都在启动的第六代移动通信技术(6G)研究,移动通信技术已成为世界各国开展科技竞争的制高点。技术发展规律决定了每一代通信技术的标准都需要较长的时间才能够走向成熟,5G虽然已经开始商用,但从非独立组网到全面独立组网的持续演进仍需要时间,针对高带宽
学位
医学图像配准作为医学图像分析的重要工具,其广泛地应用于疾病辅助诊断、人脑图谱以及图像引导放疗等领域。相对于传统3DCT(3-Dimension Computed Tomography,3D CT),肺部4DCT加入了时间轴,其可以为个体提供整个呼吸过程中的全部信息。通过对肺部4DCT图像进行配准,能够有效地刻画肺部组织结构的相对运动,有助于解决在精准放疗、病灶肿瘤跟踪以及肺功能评估等一系列临床应用
百年来,车辆带来诸多便利的同时,因为疲劳驾驶或人工操作失误人工操作失误而造成的交通事故不计其数,产生了巨大社会伤痛和巨额经济损失,人们憧憬着无人自主驾驶车辆带来社会生活进步。同时,作为汽车产业和人工智能发展必然趋势,无人自主驾驶不仅能为汽车产业带来巨大市场利益,而且是人工智能一定要征服的高峰。近年来,越来越多无人驾驶出租车、摆渡车、移动零售车出现在城市道路,公园广场等常见生活场景。  车道线作为道
学位
基于图像的人体行为识别是将计算机视觉和人工智能相结合实现人体行为识别的一种智能化技术,其已广泛应用于特殊人群监护、人机交互等领域,并已成为人工智能的研究热点之一。  目前,基于图像的人体行为识别技术的研究主要基于单分类器,通过优化特征信息、改进识别算法来实现。其虽然取得了很多研究进展,但在模型的通用性和准确率的提升方面仍存在研究瓶颈。单个分类器通常只针对训练好的几种行为的识别效果好,行为种类变化后
学位