基于深度学习的视频-自然语言时序定位研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sphjh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着通信技术、微电子技术的进步,互联网飞速的发展,移动终端快速地普及到了几乎每一个人的手中,图片、视频、语音也取代文字,成了人们生活中最主流、最重要的信息媒介,同时也将创造、分享信息的门槛和代价基本降至零成本。但如何对这海量的数据和媒体信息,如何进行高效地、便利地查询和管理,则成为亟需解决的问题。采用文本、语音以及多种模态信息来检索视频、图像信息,统称为跨模态检索问题。视频-自然语言定位任务是跨模态检索的一个子集,可以定义为给定一段自然语言描述和一段视频,在视频中找到符合自然语言描述的片段。本文旨在采用深度学习方法来实现视频-自然语言定位问题,并对现有的模型进行改进。在定位问题中,注重提高预测结果与目标片段的覆盖率,而失去对边界的精度的判断。对于这一问题,本文首先通过引入基于细粒度的文本、视频信息交互,让视频中每个时间步更有效地感知文本信息,从而以此判断文本所对应的边界;同时,提出了边界感知的方法,将边界精度单独地进行学习,从而提高了边界定位的精度。词级别的文本、视频信息的细粒度交互,会丢失语言描述的一些内部组织与局部信息,而这些局部信息,即短语,在视频中常为一个语义实体。针对这个问题,本文引入了基于组合注意力的机器推理,通过多个阶段连续地对语言描述进行语义抽取,将其分割成多个相互之间语义较为独立的意群,通过语言意群与视频的跨模态信息交互,能够在实现细粒度的同时兼顾语言的内部组织。对于视频定位中的语义对齐问题,即出现“第二次”、“在……之后”这些时间状语影响定位的文本信息,采用了基于自注意力机制的上下文融合,以在视频中收集有效的时间依赖信息。同时,因为自注意力机制关注的是视频全文间的依赖关系,而没有考虑视频的时序,所以在全文上下文建模之前引入了局部的上下文建模,增强视频局部信息的关联和组织。对于提出的方案,在Activity Net Captions、TACo S、Chrades-STA数据集上进行实验,相比于当前存在的其他方法,取得了更好的成绩,并且通过对模型实验分析,证实了设计的有效性。最后,使用我们提出的算法,实现了基于语言定位的视频裁剪工具。
其他文献
百年征程波澜壮阔,百年初心历久弥坚.一切向前走,都不能忘记走过的路;走得再远、走到再光辉的未来,也不能忘记走过的过去,不能忘记为什么出发.rn党的十八大以来,习近平总书记
光纤周界系统具有抗电磁干扰能力强、传感距离长、灵敏度高和全分布式等优点,在民航机场周界安防中具有重要的应用前景。该系统工作环境复杂,扰动入侵类型多变,传统的光纤周
高性能视频编码(High Efficiency Video Coding,HEVC)算法是在H.264/AVC基础上发展的最新一代编码技术,相较于H.264/AVC可降低50%以上码率,但HEVC在降低码率的同时却增加了编
同时具有两种或两种以上基本铁性(如铁磁性、铁电性和铁弹性等)的材料称为多铁性材料。这意味着在一个体系中不仅具有多种物理效应,且各种效应之间还可能会发生相互作用。实现
无线传感器网络是一种分布式控制、可快速组网的网络通讯技术,利用布置在目标场所的传感器节点采集环境数据信息,通过无线传输技术实现对环境的检测与控制。将无线传感器网络
本文对比磷矿浆脱硫方法与各种常见的脱硫方法,得知磷矿浆作为脱硫剂具有优异的脱硫效果,同时,二氧化硫对磷矿中的杂质(如Al、Mg、Ca等)有净化效果,即磷矿品位的提升也同样具有
La1-xCaxMnO3:Ag0.2作为一种强关联氧化物具有多种特殊的物理性能,其具备的巨磁阻效应、金属-绝缘体转变行为在光电快速器件、辐射热测量仪、高密度磁存储磁头、制冷器以及红
石墨烯是世界上首次被成功制备出的二维单原子层材料,其独特的二维结构和优异的性能在过去的十多年间引起了科学界的广泛关注,并取得了令人瞩目的成就。制备石墨烯有很多种方
脑机接口(brain-machineinterface,BMI)系统,可通过构建大脑与外部设备之间的信息传输通路,实现对外部设备的控制。该系统主要包括大脑、解码器、编码器和外部设备等环节,为
黄曲霉毒素因污染范围广、毒性大等原因,在食品中的含量受到严格限制,现有高效液相等荧光定量检测方法存在操作复杂、检测周期长、成本高等不足,不能满足现场高效便捷检测需