论文部分内容阅读
随着通信技术、微电子技术的进步,互联网飞速的发展,移动终端快速地普及到了几乎每一个人的手中,图片、视频、语音也取代文字,成了人们生活中最主流、最重要的信息媒介,同时也将创造、分享信息的门槛和代价基本降至零成本。但如何对这海量的数据和媒体信息,如何进行高效地、便利地查询和管理,则成为亟需解决的问题。采用文本、语音以及多种模态信息来检索视频、图像信息,统称为跨模态检索问题。视频-自然语言定位任务是跨模态检索的一个子集,可以定义为给定一段自然语言描述和一段视频,在视频中找到符合自然语言描述的片段。本文旨在采用深度学习方法来实现视频-自然语言定位问题,并对现有的模型进行改进。在定位问题中,注重提高预测结果与目标片段的覆盖率,而失去对边界的精度的判断。对于这一问题,本文首先通过引入基于细粒度的文本、视频信息交互,让视频中每个时间步更有效地感知文本信息,从而以此判断文本所对应的边界;同时,提出了边界感知的方法,将边界精度单独地进行学习,从而提高了边界定位的精度。词级别的文本、视频信息的细粒度交互,会丢失语言描述的一些内部组织与局部信息,而这些局部信息,即短语,在视频中常为一个语义实体。针对这个问题,本文引入了基于组合注意力的机器推理,通过多个阶段连续地对语言描述进行语义抽取,将其分割成多个相互之间语义较为独立的意群,通过语言意群与视频的跨模态信息交互,能够在实现细粒度的同时兼顾语言的内部组织。对于视频定位中的语义对齐问题,即出现“第二次”、“在……之后”这些时间状语影响定位的文本信息,采用了基于自注意力机制的上下文融合,以在视频中收集有效的时间依赖信息。同时,因为自注意力机制关注的是视频全文间的依赖关系,而没有考虑视频的时序,所以在全文上下文建模之前引入了局部的上下文建模,增强视频局部信息的关联和组织。对于提出的方案,在Activity Net Captions、TACo S、Chrades-STA数据集上进行实验,相比于当前存在的其他方法,取得了更好的成绩,并且通过对模型实验分析,证实了设计的有效性。最后,使用我们提出的算法,实现了基于语言定位的视频裁剪工具。