结合协同注意力和关联深度网络的视觉问答研究

来源 :华侨大学 | 被引量 : 0次 | 上传用户:zjqzc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,结合计算机视觉与自然语言处理的多模态任务视觉问答,引起研究者越来越多的注意。不同于跨模态任务图像字幕生成,只简单的用一句话来描述图像主要内容,视觉问答任务旨在让机器自动回答与输入图像相关的自然语言问题,其涉及多模态内容信息理解,需要对图像问题数据进行提取分析,从而推理出正确答案。任务对模型的图像细粒度理解有较高的要求。视觉问答的关键在于视觉图像与自然语言的共同语义理解,以及视觉与语义之间的联合引导,联合推理。注意力机制是实现多模态联合的一种有效方式。然而现有的视觉问答方法依旧存在很多问题。基于这些问题,本文对视觉问答中的注意力机制进行了进一步的探索,对注意力网络做了一些改进。本文主要的工作和创新点总结如下:(1)结合多视角注意力机制的细粒度视觉问答方法。本文提出了基于多视角的注意力机制的视觉问答模型。在视觉问答任务中,语义,图像表达具有多样性。特别地,有一些问题需要模型理解图像中多个目标对象之间的语义表达。因此,单一视觉注意力模型不能够有效挖掘图像中不同语义对象与问题语义之间的关联性。本文提出的多视角注意力机制网络可以对图像进行不同视角的信息筛选,有效的关注到所有图像中需要关注的部分。模型通过上下层不同的注意力模块,共同关注计算图像权重,并进行联合加权。本文在公开数据集VQA v2.0上取得了较好的结果。(2)结合自相关与交互引导式注意力机制的视觉问答方法。本文提出了结合自相关与交互引导式注意力机制的视觉问答模型,模型建立了问题与视觉图像各自模态内的自相关注意力模块,其次通过不同模态间数据的语义引导作用建立了问题-图像,图像-问题的交互引导式注意力模块,有效增强视觉图像信息与文本问题信息的高层语义交互,从而提升模型的整体泛化能力。优化建立了模态间信息流的交互。实验结果及消融分析表明,本文提出的视觉问答模型能够更为精确地预测视觉问答结果,具有良好的鲁棒性和可扩展性。
其他文献
在新课改教学理念的不断推动下,充分依托于多元化的信息技术手段,并将其与传统教学模式相结合,可以构建更为有力的教学和学习环境。在这一系列的信息化手段当中,希沃电子白板
摘 要:在诗歌翻译中,郭沫若提出了著名的“风韵译”翻译理论,该理论以意译和归化策略为导向,以读者接受为基准,诗人译诗,以诗译诗。并以郭沫若最后的译作《英诗译稿》中的译诗为例,表明“风韵译”在其翻译实践中,增强译诗的可读性,力求让读者接受到原诗的神韵意境,彰显郭沫若在中国诗歌翻译史上的杰出贡献。  关键词:风韵译;《英诗译稿》;读者接受  中图分类号:I106.2 文献标志码:A 文章编号:
背景:水禽细小病毒包括鹅细小病毒(GPV)和番鸭细小病毒(MDPV),可引起鹅和鸭的严重疾病。开发一种能快速、准确诊断这两种细小病毒的方法尤为重要。结果:建立了一种检测GPV和M
目的:总结乳腺肿块针吸细胞学检查结果.方法:针吸细胞学检查193例乳腺肿块获得病理证实者122例.结果:乳腺癌33例,良性病变89例.结论:乳腺癌针吸细胞学诊断准确率为91%,良性疾
十月九日清晨,红色电波传来了中共中央、人大常委会、国务院、中央军委关于建立伟大领袖和导师毛泽东主席纪念堂的决定和中共中央关于出版《毛泽东选集》和筹备出版《毛泽东全集》的决定后,我非常高兴。
解放战争时期广州的学生率先觉悟,为反对内战争取民主举行了浩浩荡荡的学生运动,在广州革命史上发挥重要的作用。只有知道过去,才能更好地理解现在;只有理解现在,才能更好地
摘 要:孔子和谐教育思想以“仁”为源泉,以“中庸”为法门。其实践智慧表现为德智皆建的统筹教育、君子不器的全面教育、有教无类的人本教育、因材施教的个性教育、学思结合的启发教育、寓教于乐的乐感教育,并在此基础上提出了孔子精神如何与当代教育相融合。  关键词:孔子;和谐教育;实践智慧  中图分类号:G511 文献标志码:A 文章编号:1002—2589(2012)27—0138—002  一、孔
本文结合远期和本期规模,对35kV主接线形式进行优化,提出优化方案,并与可研方案进行对比分析。
过去,人们仅对肠造口的手术技术及防治术后并发症加以注意,而对肠造口本身的治疗及护理不甚关心.我们自1993年2月~2001年1月共进行和随访指导永久性结肠造口灌洗23例,收到满意
从目前的情况来看,学生常盲目的听,或者不知道怎么听,我们必须解决这些问题,才能真正帮助学生提高听力能力,促使学生英语综合运用能力的提高,才有信心去迎接四级考试中的听力