视频问答关键技术研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:robinlaikankan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着硬件设备的发展,网络服务的普及以及社交媒体的兴起,每天都有海量视频数据被源源不断地生产出来,如何从这些视频中提取有价值的信息成为一个亟待解决的问题。作为一种新兴技术手段,视频问答能够基于问题针对性地提供视频中包含的各类物体和动作等诸多相关信息,其不仅可以提升信息提取的效率,而且拥有广泛的应用场景。视频问答主要涉及到文本信息理解,视频信息理解以及两者之间的交互,其中文本信息理解的算法发展较为成熟,目前已经能够在复杂的推理任务上取得不错的性能,而视频信息理解方面的发展则相对落后,包括分类、检索在内的多项基础任务仍然是当下的研究热点。现有的视频问答算法都直接使用了预训练的视频分类模型来提取视频信息表征,而这种方式通常依赖于大量的人工标注数据,因此其扩展和迁移能力都会相对受限。自监督学习能够自动从数据中生成标签并基于此来优化模型,因而更适合与现今的海量视频数据相结合。相较于图像,视频包含额外的时间维度以及声音等多通道信息,故在视频问答中需要考虑到基于时间维度的文本和多通道信息的联合推理。
  基于上述背景,本文主要研究了面向视频理解的自监督学习算法以及基于多通道注意力优化的视频问答算法。具体来说,本文的主要贡献如下:
  ·针对三维卷积神经网络的训练依赖于大规模、高质量标注数据的痛点,本文提出了基于视频片段顺序预测的自监督学习算法。该算法将视频的固有时序作为一种监督信号,首先利用三维卷积神经网络提取视频片段的特征,然后利用排序网络来预测多个被打乱视频片段本来的时序,最终使得模型通过完成该任务来学习到视频的语义信息。本文测试了多种不同结构的三维卷积神经网络,通过使用最近邻检索以及将其微调到人体动作识别任务,证明了该算法能够让不同类型的三维卷积神经网络学习到有意义的视频语义先验,并在相关任务上取得性能提升;
  ·为了使三维卷积神经网络基于无标签视频数据进行更有效的时空建模学习,本文提出了基于时空旋转预测的自监督学习算法。该算法对单个视频片段施加了空间和时间上的旋转变换,首先使用三维卷积神经网络提取视频片段特征,然后利用解决器来预测被施加变换的具体参数,最终使模型学习到时空相关的视频语义信息。本文测试了多种时空旋转预测的架构,通过比较这些架构在人体动作和动态场景数据集上的表现,不仅证明了时空旋转能够有效的提升数据集的数据使用效率,也表明了空间旋转和时间旋转在学习视频语义方面具有互补性。本文还可视化了三维卷积神经网络学习到的权重并对其进行了分析,进一步揭示了时空旋转所引入的视频语义先验知识;
  ·为了实现问题和视频所包含语义信息的充分交互,本文提出了一种基于多通道注意力优化的视频问答算法。在该算法中,问题和视频的多通道信息会通过注意力内存单元进行基于问题导向的交互,进而融合出与问题最相关的视频语义表征并给出答案。本文提出的算法使用长短时记忆网络来理解问题的语义,并使用该语义特征来实现通道内和通道间的注意力优化机制。通过在两个视频问答数据集上进行测试,证明了该算法的有效性。各通道的注意力权重能够反映算法在回答问题时对于不同信息的关注程度,使得该算法拥有良好的解释性。最后,本文还测试了在视频问答中使用基于自监督学习算法训练的视频语义信息提取模型,进一步证明了前文提出的自监督学习算法能够学习到高质量的视频语义特征。
其他文献
随着信息技术的不断发展和人们通信需求的不断增加,催生出各式各样的网络系统和服务。一方面,用户数量的增长使得有线IP网络的规模变得越来越庞大,多跳连接成为了地理位置分布广泛的主机间正常通信的基本前提。另一方面,物联网技术和应用的成熟使得物联网设备的数量经历着快速的增长。截至2019年,全球物联网设备数量达到110亿。为了实现资源受限物联网设备的互联互通,涌现出多种无线多跳数据传输技术。面对这些普遍存
学位
随着互联网技术的飞速发展和便携式数字媒体设备的普及,图像与视频等多媒体视觉数据正呈现出爆炸式增长。因此,如何快速有效地发现并提取海量视觉数据中的语义目标,并进一步对目标主体进行细粒度的语义内容理解与分析,是人工智能和计算机视觉领域中一项具有重要意义和应用价值的研究课题。  本文主要研究像素级别的语义理解问题,将针对四个不同层次的视觉数据展开研究,分别提出了针对单帧图像的图标签传播显著物体检测方法、
物理模拟是科学研究与工业制造中的一种重要技术。它以物理定律为基础,通过合适的离散化方法在计算机中对真实的物理过程进行仿真重现。在实际应用中,复杂的模拟对象通常会使计算效率十分低下,严重影响了模拟算法的实用性。  在经典的有限元方法中,计算效率会受到多种因素的制约,例如网格的采样密度、单元的质量和本构方程的函数形式等。从数值指标上看,这些因素分别影响着系统的规模、频谱条件和非线性程度,而这些方面则直
学位
随着信息技术的快速发展,人们对信息的获取和处理逐渐从单一模态转换成多种模态。近年来,人工智能在传统的计算机视觉和自然语言处理等单模态任务上取得了很多激动人心的进展,但是目前的机器智能离通用人工智能仍有很长的路要走。为了理解多模态相互交融的真实环境,人工智能需要同时处理声音、文字和图像等多模态数据,实现多种模态信息的融合和互补。然而,数据的多模态性使得数据表征、信息检索、知识发现和语义推理等应用面临
学位
图是计算机解决问题时采用的一种重要数据结构,它广泛应用于各种场景,在真实世界、社会关系和网络空间中随处可见。一方面,随着互联网的普及以及传感器和通信技术的进步,越来越多的数据以图的形式呈现出来;另一方面,人们越来越关注由对象与对象之间的关联性产生的复杂结构,而图正是研究和利用这些结构信息的重要工具。在这样的背景下,作为图中结构和语义信息的载体,图节点属性可扮演标签或特征的角色,赋能面向图的机器学习
知识图谱是一种简单有效的存储知识的方式,近年来许多开放域和垂直域的大型知识图谱被构建起来并得到了广泛的应用。知识表示和推理是人工智能研究中的重要课题,随着大数据时代的到来和计算能力的提升,原本符号化的知识表示和推理在逐渐向向量空间迁移,可以通过将知识元素映射到低维的向量空间中并基于向量空间的计算完成推理,这种基于向量空间计算的推理称为可微的推理,本文围绕可微的知识图谱推理及其应用展开研究。  可微
学位
行为识别的目的在于确定序列行为数据中任意时刻的行为模式,在智能感知、医疗健康、生物神经解码和人机交互等领域具有广泛应用价值。随着传感器及物联网等技术的发展、普及,行为数据体量越来越大、类别逐渐丰富、分布特性日益复杂,在有限成本内获得的人工标注数据相对于数据整体而言则越来越稀少、单一,因而基于经典监督学习的行为识别模型越来越容易过拟合。同时,随着传感技术的快速迭代更新和行为个体及应用需求的不断改变,
学位
使用有限元分析进行产品优化设计常常是一个多次迭代的过程,而且每一次迭代一般都需要重新进行十分耗时的有限元网格划分,以支持再分析,从而大大降低了产品再分析和优化设计的效率。为了显著提高产品优化设计和变动设计过程中再分析的效率,一种有效的解决方案是通过局部网格编辑而不是进行网格重生成,实现所需要的网格变动。然而,由于现有的少量六面体网格编辑方法仅能对六面体网格进行简单编辑,实现小幅变动,并且难以保证编
随着移动互联网通讯带宽增加和智能手机移动处理能力的增强,视频的创作与传播变得越来越方便,越来越多的视频被用户创作产生。为了有效利用海量视频资源,对其蕴含的丰富语义进行理解且检索是一个很有意义的研究内容。  传统的视频理解模型往往从预先定义的类别标签出发,基于属于该类别标签视频中的内容要素训练模板,进而完成语义识别任务。这种方式存在一定程度的局限性。对于预先定义类别标签中没有覆盖到的内容要素,该方法
建筑物外立面的语法解析与语义重建是计算机视觉中重要的问题之一。在地图重建、计算机辅助设计、电影与游戏的大规模城市生成中,这项技术有着重要的应用。高效而准确的建筑物解析系统可以节省大量的手工劳动力,实现高效的城市解析,进而通过语义重建系统,可以快速灵活地重建、生成大规模的三维城市模型。建筑物外立面的解析仍然是一个具有挑战性的难题,这是由建筑物外立面较为复杂的纹理结构、光照变化和遮挡等其他因素造成的。