论文部分内容阅读
多模态关联学习是多媒体理解任务的基石,并且具有广泛的应用场景。但是多模态关联学习由于其输入数据不同模态之间的巨大差异往往被认为是一个很具有挑战的研究课题。而多模态关联学习的关键是在于为不同模态的输入数据建立相互关联关系。本文专注于包括多模态数据对齐以及多模态关联特征学习在内的关于图像-文本多模态关联学习两大基础研究课题,以及与图像-文本多模态关联学习最为相关的两大重要应用:跨模态图像检索以及多模态视觉问答。首先,针对多模态数据集对齐任务提出了一套新的框架,该框架基于图像和文本之间的互补性,同时依托大规模互联网数据以及深度卷积神经网络技术扩充人工标注图像数据集。其中大规模互联网数据提供大量包含上下文文本信息的图像资源,而深度卷积神经网络则代替人工标注资源在借助文本信息的情况下去除掉大量的噪声图像数据。实验结果表明,基于本文方法可以在保证准确率以及多样性的情况下,从大规模互联数据中显著扩充现有人工标注数据集。通过在图像识别任务和迁移学习任务上实验,证明了基于本文方法自动扩充的图像数据集可以带来显著的性能提升。这也进一步验证了基于大规模互联网数据的多模态数据增强可以带来更多有用的监督信息帮助模型训练。其次,提出了一种全新的基于深度卷积神经网络的图像-文本多模态关联特征学习的算法。通过该深度卷积神经网络可以在同一连续空间中学习文本特征表示和图像特征表示。另外还引入了一种名为交叉卷积滤波器正则化的技术加速卷积神经网络的训练速度,减少了将近一半的训练时间消耗。为了进一步验证基于本文方法学习得到的图像-文本多模态关联特征的质量,定义了基于多模态关联特征的文本-文本以及文本-图像之间的相似度度量方法来自动构建图像数据集。这两个相似度度量方法被用来替代传统人工数据集标注过程中的两个重要步骤:类别关键词扩充以及噪声图片过滤。最终,在不使用任何人工标注数据集的基础上从头构建了一个全新数据集。该数据集不但数据规模与大规模人工标注的数据集接近,且在准确率和数据多样性以及跨数据集泛化能力上都与人工标注数据集不相上下。之后本文主要关注跟多模态关联学习相关的两大重要应用。对于跨模态图像检索,本文介绍了三种不同的框架。第一种是基于典型关联分析的图像检索模型,该方法基于大规模文本语料学习得到的文本特征表示以及有标注图像识别任务学习得到的图像特征表示,通过简单的线性变换将两个不同模态的特征空间映射到同一空间。第二种是基于多任务深度卷积神经网络的图像检索模型,针对该模型本文提出了一种全新的逐任务迁移学习的多任务深度卷积神经网络训练方法,且在有噪声的用户点击数据上学习面向图像检索任务的深度图像特征。最后一种是基于图像-文本多模态关联特征的图像检索模型,使用图像-文本多模态关联特征计算查询关键字与图像之间的相关度,以及计算图像与图像之间的相关度对检索后的图像进行重排序。在大规模图像检索任务上的实验结果表明基于图像-文本多模态关联特征的图像检索模型具有更优性能。本文讨论的另外一个跟多模态关联学习相关的应用是多模态视觉问答任务。该任务由于需要综合考虑对图像内容理解的能力,问句文本信息理解的能力以及图像-问句-答案三元组之间的多模态推理关系,往往被认为是一项难度较大的应用。本文提出了一种基于回归的学习模型来度量图像-问句-答案三元组之间的相互关系。此外,还提出了一种基于注意力的深度张量神经网络结构来完成三元组推理过程。实验结果表明,将本文提出的方法应用在目前广泛使用的视觉问答模型MLB和MUTAN上之后视觉问答任务的性能有了显著提升。概括地说,本文为图像-文本多模态关联学习提出了若干种解决方案,且在多模态数据关联以及多模态特征关联这两个多模态关联学习的基础任务上证明了本文提出方法的有效性。同时,本文提出的方法还进一步提升了跨模态图像检索以及多模态视觉问答这两大多模态关联学习关键应用的性能,这也进一步证明了本文研究内容的实用价值。