面向视觉问答和图文检索的多模态学习研究

来源 :江西理工大学 | 被引量 : 0次 | 上传用户:lx19880614
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网、多媒体技术的飞速发展和社会信息化程度的加深,图像、文本、语音和视频等共存并具有高度语义关联的多模态数据呈现出爆炸式的增长。近年来诸如视觉问答和图文检索等基于图像和文本的多模态学习任务,引起了学术界的研究热潮和工业界的应用关注。由于视觉问答和图文检索任务的复杂特性,图像和文本之间的多模态关键学习问题仍然亟待解决。本文聚焦于视觉问答和图文匹配这两大重要研究课题,对视觉问答中的空间关系图推理学习和深度统合多上下文学习,以及图文检索中多级匹配特征的学习和集成,这三个图像和文本的多模态相关学习问题进行研究。本文的主要工作如下:(1)针对需要空间关系推理的视觉问答问题,提出了问题引导的空间关系图推理视觉问答模型(Question-Guided Spatial Relation Graph Reasoning Model,QG-SRGR)。为了能进行空间关系推理,首先利用视觉对象之间的大小和位置等空间关系属性结构化建模图像为空间关系图;然后通过计算问题引导的节点注意力和边注意力分别发现与问题相关的视觉对象和空间关系;最后基于节点和边注意力权重提出并构造了门控图推理网络,通过门控图推理网络的信息传递机制和控制特征信息的聚合来捕获到节点之间的深度空间交互信息,从而学习得到具有空间感知的视觉特征表示以达到基于问题的空间关系图推理学习。模型在VQA v2.0数据集上进行训练、验证和测试,实验结果表明,QG-SRGR模型相比于先前的模型在各项准确率方面都有明显提升,特别是对于需要空间关系推理的问题,模型展现出较好的推理能力。(2)针对视觉问答中深度多上下文学习缺失和统一建模的问题,提出了深度统合多上下文学习网络(Multiple Context Learning Network,MCLN)。为能进行多上下文学习,MCLN探索了包括视觉上下文、文本上下文和视觉文本上下文在内的三种上下文信息。同时,为了将多上下文学习整合到一致的学习框架中,提出了统一的上下文建模策略并构建了三个相应的上下文学习模块。对于深度的上下文学习,通过将三个学习模块组合成多上下文学习层(Multiple Context Learning layer,MCL),提出用深度堆栈MCL的方式提取图像和问题的深度上下文信息。此外为了获得更全面的上下文信息,本文还构造了一个上下文化的文本编码器,并对其进行了微调从而增强文本特征提取阶段的文本上下文学习。将MCLN运用在视觉问答数据集VQA v2.0和GQA上,实验结果表明与先进的模型相比,MCLN在各项评估指标上均取得了显著的优势,并且大量的消融研究验证了所提出方法的有效性。(3)针对图文检索中基于标量的余弦相似性不足以充分描述图像和文本特征之间复杂匹配模式的情况,以及经验性集成多级匹配相似缺乏可解释性的问题,提出了一个多级匹配网络(Multi-Level Matching Network,MLMN),该网络能够学习和集成多级匹配特征。首先实现图像和文本在全局和局部级别上进行表示;针对余弦相似性的不足,通过多模态因式分解双线性池化来模拟两种模态的高阶交互,设计了两条基于向量的匹配路径来学习相似性表征更强的匹配特征,从而捕获到图文之间复杂的匹配模式;接着为了有效整合多级匹配特征,提出了一种基于全局匹配信息并且可解释的自适应匹配集成策略;最后为使基于匹配特征度量相似性的MLMN模型能够从负图文对中准确地检索出正配对的图文,图文检索问题被进一步视作二元分类问题,并且构造了带最硬负样的二元交叉熵损失对MLMN进行优化。在MSCOCO和Flickr30K数据集上的实验结果表明,MLMN比其他的图文检索模型具有更优的检索效果。
其他文献
具备将知识传授、能力培养和价值塑造三者有机融合的课程思政教学能力,是新时期高职院校专业课教师全面开展课程思政建设的必要条件。本文从胜任力角度分析当前专业课教师在课程思政教学时存在的同向育人价值的认知能力不足、思政教学资源的挖掘能力不够、有效话语体系的转化能力不强、开展课程思政的持久动力不足等问题,并由此提出完善理念引导制度,提升责任担当;构建研修共同体,开展精准培训;实现话语体系转换,激发教学实效
前药是自身无活性,在体内经化学或酶代谢后释放出有药效活性的原药或代谢物的化合物。前药设计是一种改善眼用制剂不良性质,如水溶性差、生物利用度低、半衰期短和眼部刺激性的重要手段。眼用制剂的药动学主要研究眼对药物的吸收、分布、代谢和排泄的规律。笔者将按照结构修饰类型综述眼用前药的药动学研究进展,从而指导临床合理用药、减少不良反应、提高疗效。
总结上海利用集体经营性建设用地建设租赁住房试点工作的进展情况,基于政策设计、规划布局、建设和管理主体等维度剖析上海集体经营性建设用地建设保障性租赁住房实践瓶颈及原因。上海集体经营性建设用地建设保租房,还需要体制机制、开发模式、考核指标与资源分配等方面的完善与政策支持,如此方可加快筹措保租房房源、缓解新市民等群体的住房困难。
水泥熟料生产线窑尾漏料是不正常的现象,但又是常见的现象。针对窑尾漏料现象,分析原因认为是窑尾护铁掉落3块和入窑物料温度较高。通过采取降低分解炉出口温度,降低入窑分解率,提高窑头喂煤的有效措施,避免了窑尾漏料,确保正常生产。
工业互联网通过将生产加工、物流运输、仓储、销售等各个环节的信息及设备紧密融合,从而实现对产业链数字转型赋能以及打破打通数据壁垒。在食品行业,工业互联网标识体系建设已经成为行业数字化的一项基础工作,标识体系建设包括标识编码、标识解析、数字化服务、创新应用等。基于工业互联网标识解析体系的创新应用广泛应用在食品行业整个产业链的各个环节之中,在产业链数字转型升级建设工作中发挥了不可替代的作用。本文从工业互
<正>授权公告号:CN 105255021B授权公告日:2017年12月12日专利权人:四川大学发明人:吴宏、沈丽媛、郭少云本发明公开了一种高强度、低压缩永久变形橡胶材料及其制备方法。该橡胶材料组分和用量为:三元乙丙橡胶100,疏水型气相法白炭黑20~40,活性剂4~6,加工助剂0.5~1,防老剂2~4,硫化剂2~4,硫化助剂0.5~2。本发明制备的橡胶材料为浅色,无异味,拉伸强度不低于16 MP
期刊
近年来,国家社会实现了良好的发展,这其中离不开化工行业提供的巨大贡献。它有效促进了当前国家城镇化的发展,也提升了人们生活的质量。而正是因为国家飞速的发展,我国对于各项技术也实现了不断地创新与突破,这一乐观的发展趋势背后,是化工行业获取良好的发展成果。但是,以相关真实的数据展开分析,当前我国化工行业在生产技术管理与化工产品的安全生产方面存在着较多的不足之处,它们严重的制约着化工行业的高质量发展。基于
水土保持高质量发展是黄河流域生态保护和高质量发展重大国家战略的重要组成部分,基于对水土保持高质量发展重大意义的认识,指出了山东省水土保持高质量发展的目标任务,综合治理纵深推进、监督管理全面发力、监测评价精准高效,并明确要提升管理服务能力、改革创新能力,基础支撑能力,以提高担当作为能力和水平。
<正>钱斌,现任中国工商银行网络金融部总经理,具有工行多层级、多岗位的任职经历,历任总行信息科技部、私人银行部副总经理,数据中心(上海)总经理,在利润中心经营、信息科技和网络金融领域的实践工作中钻研深入、勇于创新,积极推动加快工行IT架构转型、数据中心云建设和e-ICBC 3.0战略落地,助推工行智慧银行转型升级,先后主持开展多活数据中心、云计
期刊
工程施工所需运用的材料比较复杂,将装配式施工模式引入其中,不但能够提升工程施工的安全性,还可以保障施工的环保性,效果较佳。基于此,本文将主要分析装配式施工工艺的控制措施,希望有所帮助。