基于深度学习方法的视频问答研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:lj780427
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
给定一个短视频和一个自然语言描述的问题,视频问答系统需要在理解视频内容和问题的基础上,给出问题的答案。近年来视频问答任务受到计算机视觉和自然语言处理领域研究人员的重点关注,注意力机制方法是研究视频问答的一种重要方法。然而,目前的方法存在三方面不足:一是仅使用视频帧特征来描述视频,而忽略了视频特征的时序性;二是问题中的停用词无法描述视频内容,而现有方法在模型训练之前没有对其进行处理;三是未考虑视频问答任务的复杂性和逻辑性,而该任务需要多次关注和多步推理。上述不足很大程度上影响了模型的泛化性能和准确率。本文以深度学习为基础,提出了多阶段注意力机制(Multi-Stage Attention Mechanism,MSAM)模型。模型主要包含三个阶段:第一阶段是时间维度上的注意力机制模型。对视频序列进行注意力关注,根据问题中的关注词序列识别出与问题相关的关键视频,关键视频包含关键帧和关键剪辑。第二阶段是空间维度上的注意力机制模型。采用注意力查询机制,根据过滤停用词后的问题对视频关键帧或关键剪辑进行注意力关注,突出表现与问题相关的区域信息。第三阶段是时间-空间维度上的注意力机制模型。将长短期记忆网络(Long Short-Term Memory,LSTM)输出的问题编码信息和关键视频进行特征融合,融合后的特征输入到双向LSTM网络中,并根据双向LSTM网络输出结果对视频特征再进行关注。根据关注结果评估第二阶段输出的区域信息的有效性,同时得到对生成答案重要的信息。在此基础上,本文提出了基于多阶段注意力机制网络(MSAMN)的视频问答方法。首先基于残差神经网络和时域分段网络分别对视频中的帧特征和剪辑特征进行编码表示;其次基于LSTM和卷积神经网络分别对问题和答案标签进行编码表示;然后将视频特征和问题特征输入到MSAM模型中,得到与预测答案相关的重要特征;最后基于特征融合和多步推理生成预测答案。本文方法参加了天池ZJL数据集的公开评测,取得了很高的准确率。
其他文献
目的探讨改进并注重商环包皮环切吻合术术后处理对降低术后并发症的发生的积极作用。方法本组选择年龄2~65岁患者200例,其中包茎28例,包皮过长172例,改进前术后处理方案组60例
探讨了大连大豆期货市场与美国芝加哥大豆期货市场之间的价格渗透与波动性传递效应。通过构建双变量EGARCH,将协整误差项作为解释变量分别引入条件均值方程和方差方程中,动态
以互联网、知识经济、高新技术为代表,以满足消费者的需求为核心的新经济迅速发展,给市场带来了新的营销法则。企业借助互联网络、计算机通讯和数字交互媒体的威力来实现企业
本文对建立网上答疑系统的必要性和可行性进行了简要分析。提出了以校园网络为依托,建设基于WEB的网络自动答疑系统的实施方案。该方案有效地解决了传统答疑模式所带来的教学
全球进入“互联网+”的创新2.0时代,创新模式由传统的线性模式发展为网络集成模式,由传统的封闭模式发展为开放型模式。同时,我国实行全面深化改革、扩大开放和创新驱动发展
针对地面站点稀疏不足以提供鬲空间覆盖、高空间分辨率的面域PM2.5数据支撑区域细颗粒物污染防治的问题,以湖北地区2015--2017年的MODIS卫星遥感气溶胶光学厚度(AOD)产品数据为
当代岭南建筑学派的思想渊源有岭南传统建筑、岭南近代建筑和岭南现代建筑三大源流,它们对当代岭南建筑学派建筑思想的影响分别表现为不拘一格的地域主义、兼容并蓄的折衷主
嗜酸耐热菌,即环脂芽孢杆菌(Alicyclobacillus spp).,能够经受果汁加工中的高温瞬时灭菌过程,并能在酸性果汁中生长,从而导致果汁风味的劣变和腐败。嗜酸耐热菌是果汁加工中
<正>焰色反应是一种鉴别化合物中所含金属元素的方法,由于它是通过直接观察火焰的颜色来实现的,学生都很感兴趣,但实验室做焰色反应所用的铂丝棒价格较高,而且用铂丝做实验,
<正> 金货散是中医外科的常用药物,有活血祛瘀、清热解毒的作用。急性阑尼炎穿孔术后,容易并发盆腔感染。此时病人可有发热,里急后重等症状,虽经抗生素治疗,有的病人仍有脓疡