论文部分内容阅读
日常生活遍布着各种各样的数据,如语言,文字、图形和声音等,类似这样的事物的存在方式就是模态。而多模态指的是两个及以上的模态整合在一起的各种形式组合。通过学习多个模态中各个模态的一致性和互补性,并完成各个模态之间的信息转换和交流便是多模态学习。最近几年,随着大数据技术的大幅度提升以及深度学习技术的快速发展,多模态学习技术有了进一步的发展。深度多模态学习是多模态学习技术发展的必然产物,它继承了传统多模态学习的学习任务和目的,并用深度学习技术推进了多模态学习的发展和进步,而且还取得了显著的效果。在多模态学习领域,目前大多数方法都可以从模态中提取有用的信息来提高算法的性能,但是依旧存在很多问题没办法合理解决,比如:模态的不充分性、实际数据无标记的较多以及单模态怎么利用多模态学习方法来进行学习。本文考虑在现实的复杂情景中存在的问题,基于单模态和多模态数据在不同的情况下对多模态学习做出如下研究:1.现有方法没有充分利用模态的一致性和互补性以及现实数据多为无标记数据的问题研究。现在大多数多模态学习方法都只是单一的考虑模态的一致性或者互补性性质,但是实际上,实际数据是十分复杂的,仅仅考虑数据模态的一致性或者互补性是不合理的,很容易导致学习性能大幅度降低,从而影响模型的泛化能力。而且实际任务中,数据大多数是无标记的,但是现有的多模态学习方法很少有能够有效地利用未标记数据来提高算法的性能。因此为了解决这些问题,我们提出了一个新颖的综合性多模态学习框架。该模型取得了模态一致性和互补性之间的平衡。具体来说,首先我们利用实例级别的注意力机制来加权不同模态下每个实例模态信息来获取实例整体的充分性,接着我们设计了新颖的正则化度量来衡量模态的互补性,最后我们通过使用鲁棒的一致性度量来发现未标记数据中模态的一致性。实验表明该模型在真实数据上能取得不错的效果。2.单模态构建多模态互补拆分问题研究。现实应用中,数据大多以单模态的形式存在,这成为使用多模态学习技术的障碍。虽然目前有一些多模态学习方法已经可以处理单模态数据——将单模态数据构建成多模态数据,但是这些方法往往在模态拆分的过程中忽略了模态互补性这个原则,过分强调模态一致性原则。因此为了解决这个问题,我们在短文本匹配任务中进行一些研究,并提出了基于局部交互构件的双网络文本匹配模型。该模型将单模态短文本数据构成两个模态:用于描述局部交互的位置结构模态和用于全局语义信息提取的全局语义理解模态,由两个异构网络分别来提取两个模态的特征。该模型通过构建每个模态的差异性来实现模态的互补性原则。与此同时,通过注意力机制将位置结构模态的位置信息传递给全局语义理解模态来获取一致性的综合信息从而实现模态的一致性原则。在此基础上,我们通过设计低阶交互函数和高阶交互函数并利用长短期记忆网络来分别对位置结构模态和全局语义理解模态进行了技术提升,从而大大提升了该模型在短文本匹配中准确率。