视觉问答研究进展分析及关键性信息度量

来源 :阜阳师范大学 | 被引量 : 0次 | 上传用户:sdfsdffsgf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在目前包括自然语言处理和计算机视觉这些研究重点领域中,视觉问答(Visual Question Answering)无疑是最热门且具有挑战性的领域之一,受到了越来越多的关注,并且具有十分重要的研究意义,通过对视觉问答的研究,可以帮助视觉障碍者了解周围的事物,回答一些关于周围场景的问题,缓解生活困难,提高人机交互的体验,使人机交互更加自然。但是给定一幅图像,回答对应问题时是问题更重要,还是图像更重要,并未有量化研究,而本文将对此方面进行了详细的探讨研究。本文的主要工作如下:(1)首先综述研究现状,并指出了未来可能的研究方向。视觉问答研究之初,视觉问答模型设计主要是利用图像和视觉特征进行简单的联合嵌入;之后部分研究对图像和问题的特征维度进行了处理;最近大量研究通过引入了注意力机制,使得问题关注自身内容和图像相关的内容;现今出现了基于关系和推理的相关模型。本文归纳并总结了以上研究方向的优缺点,并对未来的研究方向进行了分析。(2)对于视觉问答的研究,本文通过仅问题模型、遮盖图像关键区域融合问题特征、遮盖问题关键单词融合图像特征分别对视觉问答中的关键性信息进行比较和分析,通过在公开视觉问答数据集上进行了实验分析。实验的研究结果表明,视觉问答模型研究在当前常用的精度指标下,问题特征比图像特征更加重要。
其他文献
当今社会,随着科学的进步和各方面技术的发展,人类生活开始朝着全新方向发展。由于各种信息数据会被轻易获得,因此人们希望自身信息的安全性可以不断提高,当下利用指纹特征进行身份安全的识别已成为社会发展的潮流。在深度学习的基础上,进一步对指纹进行研究,已成为生物特征鉴别方面的热点,在当代社会生活中仍然具有深远的科学意义和广阔的应用前景。在许多应用场景下,如在安全防控领域,若采用传统的指纹识别方法对指纹进行
我国AGV路径规划正处在迅速发展的阶段,目前已广泛应用于自主移动的机器人上,其中智能算法是AGV路径规划的核心,在已有的群体智能算法中还有不足,在优化算法时主要工作内容如下:首先,本文选取一固定场景作为实验对象,通过现有的几种地图构建的方法进行对比分析并找出它们的优缺点,将实际环境简化为只含特征信息点的地图,再通过等效思想将只含信息点的地图路径规划问题转换成52城市和127城市的旅行商问题。通过对
民以食为天,粮食的重要性不言而喻。粮食的安全关系到我们的日常生活和社会的稳定发展,因此保证粮食安全问题变得十分重要。本文在对相关粮仓测控系统调研的基础上,根据用户的实际需求并结合不同系统的优点,集合相关系统开发框架与技术,设计并实现了一个基于5G物联网技术的智慧粮仓测控系统,用信息化的手段满足用户对粮食存储保管的要求。本文主要工作包括:(1)进行系统需求调研,整合用户需求,设计并实现了本地客户端和
零售行业一直是我国经济发展过程中重要组成部分。但近年来随着电子商务的发展,线上交易开始蓬勃发展起来,线下零售交易量开始逐渐下滑。通过搜查资料发现,国民减少线下购物的一大部分原因是因为在结账时如果排队人数较多会在结账时花费很长时间,从而导致购物体验较差。目前,大多超市采用的结账方法是传统的条形码识别技术和无线射频技术,条形码技术需要售货员手持扫描仪对商品上的条形码进行扫描,无线射频技术则是通过感应器
随着人们生活质量的提升与新一代信息技术的逐步发展,人们对食品的质量要求越来越高,对食品质量信息安全越发重视。食品溯源涉及从生产到销售所有环节,涉及信息量较大,传统食品溯源系统中各环节相互独立,信息不流通,易形成信息孤岛,导致溯源过程繁杂、溯源难度大。食品溯源系统由中心化企业或者机构掌控,生产、加工、销售各环节信息全部存储于中心化系统中,易造成存储数据被人为更改、被攻击的风险,导致溯源信息不完整、不
2016年虚拟现实技术受到社会广泛关注之后,2020年又因疫情的影响热度再次上升。文章分析了国内外虚拟现实技术和应用的现状,对工程项目的约束条件和实施方案的可行性进行了探讨。以阜阳师范大学校园为主体,搭建了阜阳师范大学校园虚拟漫游系统。系统以阜阳师范大学招生宣传需求为导向,综合多种开发技术以解决不同的工程约束条件。系统基本框架基于HTML5和Three.js搭建。作为远景,以真实感为主要要求,对部
高校一直都是科研创新的重要高地和科研力量的主要集中地,其科研成果的多寡更是作为衡量高校综合实力强弱的关键性因素之一,对于高校科研成果管理平台的构建和发展应该给予高度重视。搭建一个依托于互联网平台的科研成果管理系统,为高校科研人员创造一个良好的科研环境,是功在当代,利在千秋的利好工程。通过对国内外部分高校科研成果管理系统的研究分析,结合阜阳师范大学现行科研成果管理系统现状,本课题将从科研成果管理功能
图像的数字化修复是一项依靠已知信息对图像损坏部分进行填补,并且难以被察觉有修复痕迹的技术。图像的数字化修复技术如今在许多领域都有所应用,例如旧照片裂纹修复,去除目标物的修复,古代遗迹壁画的修复等。因此,对数字图像修复技术进行深入研究,不断提高图像的修复质量具有重要研究意义。本课题以Criminisi算法与Patch Match算法为主要研究目标,总结了国内外学者针对这两类算法的研究现状,对比分析两
进入21世纪以来,互联网每天都在生产数据、创造数据和使用数据。大量的数据产生大量的信息,致使用户越来越难以从中甄别有用的信息为自己所用。推荐系统能够根据用户兴趣进行个性化推荐,满足用户需求,同时也让用户和商品之间的黏性变得越来越大。在图书推荐领域,图书推荐可以为不同的读者进行专属的推荐,满足快速而有针对性查找的需求,增加图书的阅读率和销量。本文重点对基于协同过滤和隐语义模型的推荐算法进行了研究和改
尽管视觉问答在过去几年中取得了令人瞩目的进步,但当前的视觉问答模型往往倾向于依赖训练集中的表层语言相关性,而很难推广到具有不同QA分布的测试集中。为了避免模型过于依赖语言偏见,最近的一些研究引入了一个辅助的仅问题模型,以规范化针对性的视觉问答模型的训练。CSS(Counterfactual Samples Synthesizing)作为一种与模型无关的反事实样本合成训练方案,通过掩盖图像中的关键对