视觉语义表示模型在视频问答中的研究与应用

来源 :天津大学 | 被引量 : 0次 | 上传用户:njg916
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在人工智能领域,建立视觉理解和人机交互之间的联系是一项具有挑战的任务。目前深度学习技术广泛应用在计算机视觉和自然语言处理等领域,虽然基于深度学习的视频自动描述生成任务在建立视觉内容与自然语言连接上取得一定进展,但它通常描述视觉内容的粗略语义信息,缺少对不同视觉线索之间的建模以及推理的能力。而视频问答需要模型能够全面理解出现的视觉场景,这就要求模型能够对不同层次的视觉、文本内容甚至是外部知识进行理解并找到正确的答案。人脑在应对和视觉问答类似的认知任务时,不仅需要对当前接收到的信息进行处理,还需要根据接收到的信息对大脑中存储的知识进行检索和推理。因此记忆和外部知识在认知理解的过程中有很重要的作用。基于记忆和外部知识对认知理解的影响,本文提出两方面的探索,首先层叠记忆网络(LMN)通过分级的表示过程使视频特征中包含更多的语义信息,其次引入了一个名为PlotGraphs的新数据集作为外部知识,同时提出的图表示网络(PGRN)能够结合LMN处理视频问答任务。具体来说,LMN通过静态单词记忆和动态字幕记忆分别存储单词和视频字幕信息,然后通过分级地表示过程使帧级和片段级的视频表示中包含更多的语义信息。这个过程不仅对每一帧的视频内容和单词之间的对应关系进行编码,而且还对视频片段内的字幕和帧之间的时间对应关系进行编码。文章引入的PlotGraphs数据集作为外部知识包含大量基于图结构的视频信息,同时PGRN能够表示图中结点的语义以及关系信息并且能够和LMN组成新的模型提升对视频内容的理解。本文提出的方法在MovieQA数据集和PlotGraphs数据集进行了大量实验。仅使用视频内容作为输入,具有帧级表示的LMN模型的性能得到了提升。当同时利用字幕合信息时,LMN模型在“视频+字幕”的在线评估任务中达到了最好的性能。在整合外部知识后,同时包含LMN和PGRN模型的性能进一步提升。
其他文献
UAF(Use-After-Free,释放后使用)漏洞作为堆内存漏洞的一种,能够单独利用或结合其他堆栈漏洞进行联合利用,造成数据泄露、篡改及控制流劫持等严重危害。对于静态检测,由于存
气体燃料再燃是一种高效的减少NOx排放的技术,在降低NOx排放的同时,还减少对化石燃料的消耗,保护环境。论文以660 MW亚临界燃煤锅炉为研究对象,利用Fluent软件进行数值模拟,
能源危机与环境危机是21世纪人类面临的两大重要挑战。利用光催化转化CO2为碳氢化合物的技术,不仅可以减少大气中CO2的含量,还可以将太阳能转化为太阳能燃料。近年来,新型催
本文研究是以DPD工业园区的发展为例,将DPD工业园区的实际发展情况与现代管理学中最为经典的理论相结合,寻找出DPD工业园区现在存在的各种主要问题以及影响DPD工业园区发展的
随着电子商务的发展,越来越多的个人和商业组织开始阅读和参考在线评论来做出购买决策。积极的评论可以为企业和个人带来显著的经济收益和名声,这为虚假评论的产生提供了强大
铝(Aluminum,Al)在酸性条件下被活化,从而会显著抑制植物生长和产量。目前,随着全球土壤酸化问题日益加剧,铝毒害成为制约农作物产量提高的主要限制因素之一。因此,植物响应铝
软土在我国沿海地区广泛分布,由于软土具有天然含水量高,抗剪强度低,压缩性高的特点,因而开展工程建设时需要对软土地基进行加固处理。透水刚性桩集合了排水固结法和复合地基
在当今信息化时代,数据量呈指数规模上涨,分析数据的手段和工具层出不穷,如何有针对性的计算数据的统计特征、发现海量复杂数据中隐藏的数据演化规律始终是数据分析领域中的
本论文依托国家自然科学基金资助项目(61401203)、中央高校基本科研业务费专项资金资助(30918012203),开展了对嵌入式平面麦克风阵列测向技术研究。然而嵌入式平面阵列中各阵
燃料电池作为新一代汽车产业的环保、高效的发电装置,相较于传统的车用内燃机,卡诺循环对其造成的负面效果很小,使其能量转换效率大约可以提高30%~50%。在燃料电池的核心结构