基于多模态威布尔变分自编码器的图像文本联合建模方法

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:lhyzb364
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的不断发展,信息越来越倾向于依靠多种模态的数据进行传播。这些模态的数据通常具有高度相关性,而每一种模态的数据往往又携带了特有的信息。在此背景下,只对单一模态的数据进行学习已经很难满足人们的需求,因为这往往会导致信息丢失等问题。而对具有相关性的多模态数据进行联合学习,不仅可以挖掘不同模态数据之间的语义关系,还可以使得各种模态数据所携带的信息能够互为补充,进而获取更为全面的信息。因此,多模态学习已经成为当今人工智能领域的热点,其中对图像-文本数据进行联合建模更是受到工业界的青睐。本文主要专注于研究图像-文本数据的多模态联合建模方法,提出了多模态威布尔变分自编码器,并在后续对该模型进行改进和拓展。本文的主要内容如下:第一部分主要对现有的基于概率生成模型的多模态数据建模方法进行了分析和总结,从理论上分析了各种模型的优缺点。本文首先讨论了基于浅层概率主题模型的多模态数据建模方法以及基于神经网络的多模态数据建模方法,分析了这两类方法的优缺点,然后讨论了基于深度概率主题模型的多模态泊松伽马置信网络,该模型能够很好地弥补上述两类方法的不足,但同时它也具有局限性,这是本文重点研究改进的方向。第二部分主要介绍了本文提出的多模态威布尔变分自编码器。尽管与基于浅层概率主题模型的多模态数据建模方法和基于神经网络的多模态数据建模方法相比,多模态泊松伽马置信网络具有能够提取易于解释的层次化隐表示这一优势,但是它也具有难以实现实时预测、难以加入监督信息和辅助信息等局限性。为了保留多模态泊松伽马置信网络的优势,并弥补它的不足,本文提出了多模态威布尔变分自编码器。它以多模态泊松伽马置信网络为解码器,以一个推理网络作为编码器。该推理网络能够对威布尔变分分布进行重参,进而利用威布尔变分后验去逼近模型隐表示的真实后验分布,从而能够在测试阶段将输入数据直接映射到隐层表示,实现实时预测。并且,由于模型使用了网络映射,从而也能够方便地加入监督信息和辅助信息。此外,本文还使用了卷积神经网络对图像提取全局特征并将它作为辅助信息引入到模型中来帮助模型提高多模态联合分类性能。最后,在多种数据集上的实验证明了多模态威布尔变分自编码器能够进行实时预测,并且由于能够加入监督信息和辅助信息,使得模型达到了较好的性能。此外,模型还能够通过主题来可视化各种模态数据之间的层次化联系。第三部分首先介绍了基于注意力机制的多模态对齐模型,使用该模型可以提取具有丰富细节的图像文本联合特征,而后将该联合特征作为辅助信息引入到多模态威布尔变分自编码器中,从而解决了使用图像的全局特征作为辅助信息的两个局限性:1)缺少文本信息;2)不具备丰富的细节信息。实验进一步表明,该模型达到了最先进的多模态联合分类性能。此外,本文也对模型学习到的图像子区域和文本单词之间的注意力关系进行可视化分析。
其他文献
随着我国汽车工业的高速发展,NVH性能成为衡量整车舒适性以及彰显技术实力的重要标志,一辆汽车能否赢得市场的青睐,NVH性能已成为主要的衡量标准之一。纯电动汽车是近年来汽车工业发展的一个重要方向,发动机消失使得其空调系统压缩机的驱动电动化、电控化。但同时,由于缺少了发动机噪声及其掩蔽效应,使得纯电动汽车空调系统的NVH问题凸显出来。本文以某纯电动车型电驱空调系统为研究对象,对其振动噪声的控制进行研究
随着无线通信技术的发展,移动设备的迅猛增加使得频谱资源日益紧张。与传统的蜂窝网络通信技术相比,D2D通信技术除了可以提高频谱资源利用率,节省带宽和功耗,还可以减少传输延迟,提高系统吞吐量,在保证通信质量的同时大大降低基站的通信压力,引起了学术界的广泛关注。本文利用随机几何知识,构建了自组织D2D和蜂窝D2D通信模型,分别研究了两种模型下的部分性能。主要工作如下:(一)在自组织D2D通信系统模型中,
对于非常规油气藏的勘探开发,微地震监测技术是定量分析水力压裂油藏改造过程中裂缝发育情况的有效方法。目前,随着国内外大型油气公司对开发非常规油气资源愈发重视,微地震监测技术发展迅速,应用前景也愈加广泛。因此,本文针对微地震监测数值模拟方法进行研究工作,从微地震数据正演模拟入手,开展有限差分法微地震数据正演模拟、微地震事件初至拾取、微地震事件反演定位等一系列技术方法的应用研究。具体内容如下:(1)微地
我国金融市场发展起步较晚,金融制度还不够完善,导致金融服务实体经济的效率不高,企业成长受到金融资源的制约。随着经济的不断发展,金融集聚现象开始在各地显现,本文注重研究城市金融集聚对当地企业成长的影响,并探究其影响机制和企业异质性情况。本文在归纳现有研究的基础上,系统梳理金融集聚影响当地企业成长性的理论机制,并手工整理2004年至2016年我国312个城市的经济金融数据,与上市公司的基本信息和财务数
随着运输行业的迅速崛起,商用车辆作为重要的交通运输工具,其安全性与稳定性越来越受到重视。制动失效是一种危险性较大的车辆故障,当车辆行驶在转弯与长大下坡工况时,由于制动系统使用频繁,制动失效的概率大幅度增加,存在巨大的交通安全隐患。所以对商用车辆制动失效后车辆稳定性控制的研究意义重大。本文针对上述工况设计了制动器失效时的稳定性控制策略,进行了Truck Sim-Simulink联合仿真与硬件在环实验
近几年,随着全球经济的发展,船舶制造业的发展十分迅猛,竞争也尤为激烈。中国船舶制造业也面临着新的挑战,如何在降低造船成本的同时还能提高船舶产品的质量,并缩短造船周期,从而使我国船舶制造业的效率得到提高,这对于提高我国船舶制造业在国际市场上的竞争力有着重要的意义。当前,我国大中型造船企业在走进国际市场的过程中,培养出许多优秀的技术型人才,并且不断吸收国外的先进技术,这大大提升了我国船舶制造业的整体竞
从图像中识别人物之间的社会关系,可以使计算机系统更好地理解人类行为或情感。然而,由于视觉特征和社会关系之间存在巨大的语义差异,自动识别图像中人物的社会关系具有很大挑战。现有研究通常单独利用人物面部属性、身体外观或场景物体等特征,建立视觉特征与社会关系的关联,难以有效解决语义差异。因此,本文提出了一种基于图像场景语义与人物姿态的多粒度推理框架。此框架可以全面捕捉场景知识、人与人及人与物体之间的动作交
高校社科学报是学术期刊的重要组成部分,它集中反映着高校的科学研究水平,办好高校社科学报对于繁荣社会科学文化工作有着重要的意义。影响力作为学术界衡量学术期刊质量高低的一个重要标准,对其进行研究能够在一定程度上反映高校社科学报的专业性与权威性程度。截至2019年,河南省高校综合性学报34家,社会科学版学报仅13家,与综合性学报相比数量少。分析河南省高校社科学报影响力的发展水平,能够为推动河南省高校社科
随着车载仪器设备应用的普及,对车载仪器设备隔振系统的研究越来越重要。针对车辆行驶工况环境以及振动频率的影响,本文基于正负刚度弹簧并联原理设计了一种空间占比小、安装
随着集成电路和智能控制理论的发展,小功率DC-DC开关电源在新能源电动汽车、光伏发电系统、绿色能源系统、LED照明设备等广泛应用。DC-DC变换器是开关电源中实现能量变换的核心部件,Buck-Boost变换器是一类集升压、降压功能于一体的非线性时变系统,运行过程中会产生倍周期分岔、次谐波振荡、准周期振荡等非线性现象,影响变换器的工作质量和性能。同时,Buck-Boost变换器是非最小相位系统,无法