基于时空注意力网络的视频问答

来源 :浙江大学 | 被引量 : 0次 | 上传用户:bxz231
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网上丰富的视觉和自然语言数据使得多模态任务成为了人工智能相关研究领域的热门主题,其中需要综合理解跨模态信息的视频问答任务更是受到了广泛关注。视频问答任务的目标是通过理解相关视频内容生成给定问题自然语言形式的回答,这在多媒体信息检索网站或者智能助理商业服务上大有用处。众多的研究工作将开放域视频问答视作多模态信息特征学习和理解任务,这些研究成果中的大部分将注意力投向了基于静态图片的问答任务,然而静态图片问答方法由于缺乏对视频时序动态敏感信息建模的能力,使其难以适用于视频问答任务。本文提出了基于分层空-时域注意力网络的视频问答方法,在经典的Encoder-Decoder框架基础上,学习不定长度视频和问题文本动态内容的联合特征并生成给定问题的答案。利用空间注意力网络,本文所提模型能够定位每一视频帧中包含回答问题最关键信息的区域。时域注意力机制则理解视频帧之间的重要性差异,选择性抽取出整个视频中的重要帧内容。为了对视频中时序敏感信息建模,本文所提出的模型运用注意力机制改进了门控制循环单元(Gated Recurrent Unit,GRU)网络结构,用以学习视频帧的时间维度顺序关系。同时本研究在分层空-时域注意力特征学习网络基础上进一步引入了多步推理过程,迭代更新模型所学得视频和问题联合特征,优化模型特征学习能力。出于模型验证目的,本研究中构造了大规模的视频问答数据集。利用构造的数据集,以前沿的图像问答方法和视频问答方法作为比对模型,进行了充分的实验以验证文中所提出模型在视频问答任务上的有效性。为了适应视频问答任务,实验中对这些图像问答方法都应用了必要的扩展。实验结果表明,本研究所提出的模型在各项性能指标上均好于这些强劲的对比模型,从而证明了本文所提出的模型的有效性和优越性。此外,本文还设计并实现了开放可用的视频问答系统,以展示本文所提出的视频问答方法实际效果。视频问答系统的实现以Facebook Messenger Platform为载体,以Chatbot形式将用户与后台视频问答模型服务进程连接起来。系统测试结果验证了视频问答系统各项服务的出色表现。视频问答系统目前已可公开访问。
其他文献
自古以来,“酒”就不仅仅是一种抒发胸怀,情感交流的物质,也是一种文化的体现。本文以中西方酒文化为中心,分别从酒文化的起源、种类及酒器、饮酒礼仪、酒文化所包含的精神内
<正>资源错配与宏观经济产出之间的联系可能比我们想象的更为密切。对这一问题的忽视已经成为当前宏观经济学的盲点当我们对某一观点产生惯性思维后,就很难发现其中的不妥之
江苏省如皋市慈善基金会(以下简称基金会)从2007年成立到2019年底,共接受社会捐赠3.41多亿元,其中冠名基金2.39多亿元,占如皋市基金会基金总量的70.1%,可谓“三分天下有其二
文化是人类社会在不断进步和发展过程中的智慧结晶,人类文明传承也是人类进行智慧的传承。群众文化作为我国文化发展中的重要组成部分,将非物质文化遗产在群众中传播,可以发
中国自主研发的月球车、载人潜水器、综合科考船……在第十九届中国北京国际科技产业博览会上,无数令人惊叹的全球领先技术和尖端科技成果无不折射出中国经济正在积聚越来越
新课标提倡动态生成的理念,强调课堂的创生和开发过程,重视师生生命活动的多样性和教学环境的复杂性,把每节课都视作不可重复的激情与智慧综合生成的过程。叶澜教授曾说:“要用生命的高度,用动态生成的观点看待课堂教学。课堂教学应被看做师生人生中一段重要的生命经历,是他们生命的有意义的构成部分。”因此在课堂中,教师要善于引导这些以生命为载体的动态生成性资源,使之开放地纳入预设的课程目标中,促进课堂活跃,让教学
目的 探讨脾硬化性血管瘤样结节性转化(SANT)的影像特征及鉴别诊断.方法 分析1例脾SANT病人的MRI表现及临床病理特征,并复习相关文献.结果 MRI示脾的下极孤立性肿物,边界清,平
为了更好地保护草本植物多样性,通过对马尾松林木生长因子和草本多样性指数的调查、计算和分析,对马尾松林木生长、草本植物多样性及地形因子之间的关系进行研究。结果表明:(1)
北方地区气候四季分明,冬季气温低。养殖企业分散,规模以中小型居多。近年来,我国大面积推广沼气工程,但是在使用和管理上,由于南北方地域温度差异,或多或少存在着一些问题。
2016年,菲律宾顺利完成大选,并成功进行权力交接,政治社会总体稳定;经济以6.8%的增长率跃居亚洲首位;外交上一改依赖美国的大国平衡外交政策,在新任总统杜特尔特的率领下,菲