视觉问答(VQA)中语言歧义消除方法的研究

来源 :天津工业大学 | 被引量 : 0次 | 上传用户:hyhlj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着多媒体和互联网的发展,如何处理海量的图像与文本信息成了目前亟需解决的一道难题。因此,对计算机视觉与自然语言处理交叉领域的研究成为学者们讨论的焦点。其中,视觉问答(Visual Question Answering,VQA)任务就是研究的热点话题之一。视觉问答任务是指给定一个自然语言问句和一幅图像,要求机器在对图像理解的基础上对问句做出回答。视觉问答涉及了语义理解、图像检测与识别、知识推理等相关技术,要求机器以人类的方式来理解图像,同时基于语言与用户进行交互,因此对提升机器人等人工智能系统的智能程度具有十分重要的作用。在过去的几年里,视觉问答得到了广泛的关注,因此涌现了大量的相关工作。通常来说,视觉问答任务需要同时处理图像的视觉信息和问句的文本信息,并以特征融合的方式将提取的视觉特征和文本特征映射到相同高维空间内,这需要视觉问答模型能正确解析出问句的语义,从而结合视觉特征给出正确的答案。对于复杂的问句,由于语言歧义现象的存在,现有的模型往往对文本信息的捕捉产生偏差,这导致现有的VQA系统难以捕捉问句的真实含义。当答案错误的时候,人类可以尝试以其他多种方式理解问句,从而得出不同的答案。受此启发,本文提出了一种基于yes/no反馈的视觉问答方法,具体过程如下:本文的方法通过yes/no的反馈机制判断模型第一次得出答案的正误,当用户给出的反馈信息为no时,本文将重新解析该问句,通过生成多种消歧后的新问句,产生不同的候选答案。然后输出最高置信度的答案作为最终结果。本文在两个基准数据集CLEVR和CLEVR-Co Gen T上将本文的方法与现有方法进行了比较。在CLEVR数据集上,本文方法的精确度接近100%。在CLEVRCo Gen T数据集上,本文的方法精确度也比现有方法高21%。
其他文献
随着物联网时代的到来,传感器作为数据采集和传输的关键器件,必将在未来得到快速的发展和应用。其中,磁传感器在日常生活和工业等领域应用广泛,是传感器中重要的组成部分。目
随着合成孔径雷达(Synthetic Aperture Radar,SAR)的发展,SAR成像技术的提高,得到的SAR图像具有更丰富的信息,在民事以及军用领域应用越来越广泛,因此对SAR图像的解译工作也
自上个世纪90年代以来,新媒体在世界上引起了越来越大的影响,特别是以博客、微博、微信群及公众号、QQ群、BBS论坛、播客、网络百科等为代表的自媒体方兴未艾,公民的自我表达
随着乡村振兴战略的提出,我国正在加快推进农业现代化的进程,并明确提出让农业成为有奔头的产业,让农民成为有吸引力的职业。在此背景下,国家积极探索并不断推进农民职业化,
图像压缩是数据压缩技术在数字图像处理上的应用,目的是减少图像数据中的冗余信息,从而用更加高效的格式存储和传输数据。近年来,随着深度学习的迅猛发展,基于深度学习图像压缩方法取得了较大突破,在图像重建质量上已经超越传统方法。与此同时,深度学习在分类、分割、检测等图像理解任务上的出色表现,使其被广泛应用在无人驾驶、安防监控、社交媒体等场景。在此类场景下,经过压缩编码的图像,已不再局限于提供给人类观看,很
法布里-珀罗可调谐滤波器(FPTF)作为红外气体传感器的重要组成部分,在气体检测领域有着广泛的应用场景。近年来,空气污染日益严重,对于便携性好、稳定性高和价格低廉的气体传
软体机器人作为机器人研究领域的前沿科技一直是研究者们的研究重点。碳纤维硅橡胶复合材料因其大变形、弯曲刚度小等优点成为了软体机器人的一种新型智能材料,具有重要的应
近年来,我国对社会服务事业的支出逐年增多,促进了社会组织的繁荣发展,但在全国范围内呈现出发展不平衡的现象。学界对于沿海发达地区的社会工作发展更为关注,对于民族地区的
2017年国家颁布了新的化学课程标准,标准强调了学生学习方式和能力素养的重要性。近年来众多教师虽然关注到了学生的主体地位,但是课堂还是出现互动热闹、不能形成有效互动等
《红楼梦》是明清小说时期中国古典文学名著发展的顶峰,其中辞藻华丽对称工整,人物刻画入木三分,意韵俱佳境界幽远,身为中国古代四大名著之首。《红楼梦》中大量的古典诗词,