基于不平衡交互的视觉问答模型算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xsyangle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人工智能技术在近几年得到快速发展,问答系统是其中的一个重要的组成部分,并在工业界受到广泛关注。随着计算机科学与技术的发展,文本、声音和图像等媒介不再是作为单一的个体和人类交互,而是相互组合一起,组成一种以多模态数据为载体的新型的交流方式。因此,多模态视觉问答任务成为了新的研究热点。给定一个问题和对应的图片,视觉问答系统旨在正确回答该问题。虽然目前的视觉问答模型已经有了较高的回答准确率,但是往往会因为图片和问题中包含过多与推理无关的信息,从而无法进行正确的推理。本文提出一种新型的基于深度并行联合注意力的视觉问答模型(Deep Parallel Co-attention based visual question answering Model,DPCM)。DPCM模型主要划分为三个阶段:图文特征提取阶段、深度并行联合注意力阶段以及特征融合和分类阶段。在深度并行联合注意力阶段,本文提出了并行联合注意力层。该层联合使用自注意力机制和引导注意力机制来分别获得两个视角的更新特征,然后对两个视角的更新特征进行双线性融合,最后使用融合后的特征更新原始特征。进一步地,本文在DPCM模型的基础上进行了改进,提出了基于深度不平衡交互的视觉问答模型(Deep Unbalanced Interaction based visual question answering Model,DUIM)。区别于DPCM中的深度并行联合注意力阶段,DUIM模型在并行联合注意力的基础上提出了不平衡交互层。不平衡交互层考虑到多模态数据中存在的与推理无关信息的影响,提出细粒度自适应激活方法来对这些无关信息进行过滤。通过以上方式,DPCM模型和DUIM模型在视觉问答的推理阶段可以进行更合理的推理,提高了模型的推理能力,从而更容易找到正确的答案。实验结果表明,在视觉问答的基准数据集上与8种对比模型相比,DPCM模型和DUIM模型均获得了更好的推理性能。
其他文献
初生对流检测是强对流天气预警的重要课题,其检测效果直接关系到人民的生命财产安全。能够更高精度和更长远提前量地检测到初生对流,对于极端天气的预防预警具有重大意义。相比现阶段初生对流检测多采用的多普勒天气雷达数据,卫星图像序列具有时效长、范围广的特点,能够在中尺度大气天气系统中更充分的检测到对流的初生和发展。现有的基于卫星图像序列的初生对流检测研究大多集中在物理规则方法,具有提前量短、精度低、无法充分
学位
现代社会中,随着信息技术的不断普及,各行各业产生了大量的数据。通过传感器、移动设备、工作站和其他电子设备收集的各类数据大多存储在数据库中。基于这些数据,为了更好地对系统特性进行建模并预判系统行为,各种数据挖掘技术相继涌现。其中,一个重要的研究分支是模式挖掘,其目的是从数据库中提取一组特定的模式,从而帮助人们更好地理解数据。根据用户和应用的需要,人们在不同类型的数据中挖掘各种类型的模式。针对不同类型
学位
目的炎症性肠病(Inflammatory bowel disease,IBD)已引起越来越多的关注。越来越多的证据表明,接触空气污染物与炎症性肠病有关,但结果并不一致,关于日常接触的相关研究也很少。本研究评估了合肥市日常空气污染与炎症性肠病急性发作之间的关系。方法收集2019年1月1日至2019年12月31日安徽医科大学第一附属医院和第二附属医院每日炎症性肠病患者因急性发作而就诊的数据。收集201
学位
目的:慢性阻塞性肺病(COPD)是世界各国的主要死亡原因之一,也是目前常见的慢性疾病,特别是在暴露于烟草烟雾和空气污染物的老龄化人群中非常普遍。这时疾病早期的预测因子和靶向治疗手段就显得尤为重要。非编码RNAs在COPD中的异常表达已经被发现。然而,几乎没有COPD的研究系统分析不同RNA转录组间的相互作用。因此,RNA调控网络如lnc RNA-mRNA,circRNAmiRNA-mRNA相互作用
学位
目的:评估白光内镜(white light endoscopy,WLE)、纵轴超声内镜(Endoscopic ultrasonography,EUS)单项检查以及两者联合对早期胃癌(early gastric cancer,EGC)黏膜下浸润的预测价值;比较纵轴EUS和小探头EUS对早期胃癌黏膜下浸润预测价值。方法:回顾性分析安徽医科大学第二附属医院自2018年3月至2021年6月经内镜或手术切除
学位
目的:上消化道黏膜下肿瘤(SMTs)为临床中常见肿瘤,根据不同的生物学特性及临床病程分为良性和恶性,两者具有不同的治疗策略以及预后,其中胃肠道间质瘤(GIST)为最常见具有恶性潜能的SMTs,目前影像学检查方法众多,但仍缺乏统一的诊断标准。本文主要研究传统检查方法CT、超声内镜(EUS)与新技术谐波造影增强超声内镜(CEH-EUS)对上消化道SMTs良恶性鉴别诊断以及对GIST恶性潜能评估的价值。
学位
博弈广泛存在于商业竞争、金融调控、军事部署、国际关系、游戏竞技等领域,而博弈论是关于计算最优策略而产生的重要理论体系。现实世界中的复杂博弈大多数都是不完美信息的,而反事实遗憾最小化(Counterfactual Regret Minimization,CFR)算法是解决该类博弈的重要方法之一,但是该算法在求解复杂博弈时存在时间(收敛速度过慢)和空间(占用存储空间过大)的问题。针对这些问题,本文提出
学位
长期以来,图表示学习都是一项重要且具有挑战性的任务。近年来,图神经网络在图表示学习方面展现出了较好的性能,显著地提升了图表示学习模型在诸如节点分类,链接预测和图分类等下游任务上的表现。许多图神经网络模型都基于半监督学习,然而对于许多实际的应用场景,例如蛋白质分析,需要大量的成本,甚至需要专业领域的知识才能人工标注足够多的数据。因此,受无监督对比学习最新进展的启发,本文提出了节点级图对比学习模型。同
学位
研究目的观察2型糖尿病早期肾病患者使用利拉鲁肽、达格列净及二者联合治疗后血糖、血压、身体质量指数、血脂和肾脏相关指标的变化。研究方法将120例血糖控制不佳的早期2型糖尿病肾病患者,分为达格列净组、利拉鲁肽组、达格列净联合利拉鲁肽组和对照组(不使用达格列净或利拉鲁肽),每组各30例。分别检测治疗前及治疗24周后空腹血糖(FBG)、餐后2h血糖(2h PG)、糖化血红蛋白(Hb A1c)、收缩压(SB
学位
目的通过分析我院维持性腹膜透析患者与慢性肾脏病非透析患者资料,了解患者肠屏障功能及胃肠道症状情况,同时探讨腹膜透析患者及非透析患者外周血中性粒细胞淋巴细胞比值(neutrophil-to-lymphocyte ratio,NLR)与肠屏障功能的相关性。方法选取2016年9月~2020年8月安徽医科大学第二附属医院肾脏内科规律随访的腹膜透析(peritoneal dialysis,PD)患者(PD组
学位