基于深度学习的视频问答研究

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:ccmsdn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最近,计算机视觉和自然语言处理相结合的新领域受到了广泛的关注,例如视频描述生成,视频问答等。其中,视频问答作为一个非常新的研究领域吸引了很多的研究人员。它的目标是根据给定的视频和相应的问题给出正确的回答。视频问答的类型包括:单个单词的回答,完整句子的回答,填空题以及多选题。在本文中,我们研究的是最新提出的电影描述空白填空任务。在这个任务中,问题是丢失了一个单词的电影描述,视频是电影的一个片段。电影描述空白填空任务的目标是准确地预测出空白处丢失的单词。在以前提出的用于解决电影描述空白填空问题的模型中,最开始的方法没有强调视频与问题之间的相关性,仅仅简单地将它们的特征合并在一起,然后将其用于对空白处单词进行预测。随后的方法使用到了注意力机制,但是也仅仅从问题层面对视频特征赋予不同权重,从而生成问题层面的注意力向量并用于最后的单词预测。为了克服上述两个方法的局限性,我们在本文中提出了两个模型:分层的多层次注意力模型和分层的多层次多模态注意力模型。在分层的多层次注意力模型中,我们不但从问题层面来计算注意力向量,同时也从问题中的单词层面来对视频帧赋予不同的权重。单词层面的注意力机制用于更新视频内容,突出视频与文本相关的部分。问题层面的注意力机制用于更新问题的特征,使得问题更关注到视频内容,从而提高预测的准确率。在此模型上,我们又加入了不同模态的多层次注意力:帧层面的注意力机制和视频层面的注意力机制。帧层面的注意力机制是为了将问题的内容更加聚焦到视频和问题相关的部分。视频层面的注意力机制用于生成更贴合问题的视频特征。最后视频特征融合问题层面的注意力特征来对空白处的单词进行预测。在对问题和答案进行分析的时候,我们注意到有些单词的预测需要视觉内容的参与,而有些单词的预测并不需要视觉内容。比如“she sits on the chair”。当我们需要预测的单词是“on”的时候,我们仅仅通过语义上的信息就足以预测出这个单词。然而,当预测的单词是“chair”的时候,就一定需要视觉内容的参与来正确地预测空白处的单词。针对这个问题,我们提出了自适应时间注意力机制和描述更新模型。在这个模型中,自适应时间注意力机制是通过参数来自适应地决定视觉内容参与到单词预测的比例。描述更新是为了将描述聚焦到视频中的重要内容上。在上一个模型中,我们简单地将不同文本的特征向量拼接在一起。由于不同文本对单词预测的影响是不一样的,因此,我们提出了改进的自适应时间注意力机制和描述更新模型。在这个模型中,我们利用注意力机制将两个不同文本的特征向量融合在一起。我们通过实验对比了我们提出的算法和以前算法在MovieFIB数据集上准确率。所有的实验都表明,我们的算法都比以前的算法具有更高的准确率。
其他文献
白菜类作物是一种具重要经济价值的作物,在欧洲栽培了数个世纪后扩展到中亚及东亚地区。未熟抽薹会大大降低此类作物的产量和商品价值。染色体片段代换系是进行作物QTL定位和
薄皮甜瓜(Cucumis melo var.makuwa Makino),是目前发展较快的经济作物之一,但在其生长发育过程中常遭遇不同的逆境胁迫,导致植株产量和品质下降。脂氧合酶(Lipoxygenase,LOX
大白菜(Brassica rapa ssp.pekinensis)是中国种植面积最大的蔬菜作物。叶片是它的主要食用部分,而且叶片也是白菜进行光合作用的场所,所以对大白菜尤其是叶片的多种性状进行
MicroRNA(miRNA)是22个核苷酸(nt)的内源性非编码RNA,能够响应多种非生物胁迫。前人通过高通量测序挖掘出mi R162是在低夜温下受脱落酸(Abscisic acid,简称ABA)诱导差异表达
作为实现智慧医疗的主要技术,无线体域网以人体为中心,主要由可佩带或可植入人体内的传感器或控制器组成的一种自组织网络。当无线体域网中的传感器用于收集与处理用户的相关
随着国际经济增速的放缓和市场竞争的日益激烈,对客户需求的响应速度越来越成为赢得市场竞争的重要因素。在出口制造业,对客户需求的响应速度表现为对客户订单的生产提前期的
无线传感器网络是一种由无线传感器组成的自组织网络。无线传感器节点一般通过电池供电,由于电池的容量非常有限,传感器的能量限制成为了无线传感器网络持续运行的障碍。为了
mircoRNA是一类非编码类大约21-23核苷酸长度的小RNA。它能通过和其相对应的靶基因的m RNA碱基配对,引导其mRNA沉默复合体(RISC)降解以阻碍翻译,从而调控其相应基因在转录后
为更好地利用白菜类蔬菜作物的杂种优势,创制雄性不育系以解决其杂交制种手段问题,本研究以复等位基因遗传的矮脚白菜核基因雄性不育系为不育源,向矮脚黄白菜中转育核不育基
室内活动占据了现代生活的大部分,健康的室内环境是人们正常生活的重要前提,但装修材料、家具中挥发出的甲醛等污染气体已严重影响了人们的健康。光催化作为一种高效、绿色、环保的除甲醛方式,探索其在实际生活中的应用成为近年来研究的热点。表面积大、织造工艺成熟的窗帘成为光催化净化室内空气的理想载体。目前,具有光催化作用的纺织品层出不穷,许多新技术新工艺也不断涌现,但仍有许多问题亟待解决,例如原材料、工艺流程、