论文部分内容阅读
在深度学习领域,如何在有限数据下训练高效的深度学习模型是需要面对的一个基本问题。解决该问题的一个有效方法是通过预训练-微调范式。受到BERT、GPT等工作的启发,国内外研究者已经提出几种联合表征图像和文本的跨模态预训练-微调方法,但是目前的研究不能从构建模型阶段、预训练模型阶段和微调模型阶段的全局角度考虑跨模态预训练研究的鲁棒性,因为当前的研究存在以下三方面的不足。第一,在构建模型阶段,存在表征不对称场景下的跨模态融合问题。由于同时期的跨模态预训练研究并不能实现端到端的学习过程,因为输入的视觉信息是经过深度神经网络提取的视觉区域特征,而文本信息并未经过深度表征,利用当前的跨模态信息融合方法不但会引入文本浅层噪声信息,而且还忽略了跨模态信息的跨层交互,导致跨模态模型鲁棒性变差。第二,在预训练模型阶段,存在跨模态视觉语义表征稀疏的问题。已有的跨模态预训练模型在视觉分支使用了有监督的分类任务,该方式限制了跨模态视觉语义信息获取细粒度表征的能力,当面对视觉内容产生细粒度的语义变化时,模型鲁棒性变差。第三,在微调模型阶段,存在混合粒度攻击场景下跨模态模型鲁棒性差的问题。因为在面对场景复杂多样的跨模态下游任务时,跨模态模型容易受到不同扰动粒度的攻击,该扰动攻击可能同时来自连续形空间产生的微小扰动以及文本离散空间产生的近义词替换,从而使模型做出错误预测,导致跨模态模型鲁棒性不足。本文针对面向鲁棒性的跨模态预训研究集中在以下三个方面,即表征非对称下的跨模态信息跨层融合方法,面向密集视觉语义表征的跨模态无监督预训练方法和面向混合粒度攻击的跨模态鲁棒性微调方法。并取得了以下创新成果:1)针对表征不对称场景下的跨模态信息融合问题,提出基于四元复数内积的跨层融合方法。在已有的研究中,视觉输入信息通常来自视觉区域特征,此时视觉、文本信息存在不对称性的表征,现有的Transformer机制只针对同层的跨模态信息进行融合,所以当前的方法不但会引入文本浅层噪声信息,而且忽略了不同层跨模态信息的交互,导致跨模态模型鲁棒性变差。本文提出基于四元复数内积的跨层融合方法,利用该方法构建了四元复数块堆叠的网络(Quaternion Block Network-QBN),解决了表征不对称场景下的跨模态信息融合问题,实现了跨模态信息跨层融合。在四元复数块内,通过多层内容学习,多层关系学习不但可以去除文本浅层噪声信息,还可以捕获不同模态之间的跨层交互,提升模型鲁棒性。另外,通过文本特征对视觉特征进行动态缩放,验证了引入更多文本相关的视觉特征可以有效地提高模型性能。本研究利用VQAv2数据集对提出的QBN模型和子模型进行验证,QBN模型在视觉问答任务(VQA)的效果可以超过同时期的其他模型,甚至可以超过早期的跨模态预训练模型效果,验证了基于四元复数内积的跨层融合方法的有效性。2)针对跨模态视觉语义表征稀疏的问题,提出面向密集对比学习的跨模态预训练方法(Dense Contrastive Visual-Linguistic Pretraining-DCVLP)。在已有的跨模态预训练研究中,针对视觉区域特征添加了基于掩码的分类和回归任务来进一步提升预训练模型的效果,但是该方法属于有监督的代理任务,会引入稀疏的语义理解,导致跨模态模型面对细粒度的复杂问题时鲁棒性变差。本文提出面向密集对比学习的跨模态预训练方法,解决了跨模态视觉语义表征稀疏的问题,实现了自适应的学习跨模态细粒度语义的共现性,确保当视觉内容产生细粒度的语义变化时,模型能够具有鲁棒性。本文设计了两种实现密集对比学习的跨模态预训练方法:基于掩码扰动任务的跨模态对比预训练方法和基于对抗扰动任务的跨模态对比预训练方法。本文通过在经典的单流模型和双流模型对提出的面向密集对学习的跨模态预训练方法进行验证,实验结果表明该方法对原有模型效果提升显著,证明了该方法的广泛适用性。该方法在多个视觉-语言下游任务的效果可以超过同时期的其它模型,证明了面向密集对比学习的跨模态预训练方法的有效性。3)针对混合粒度攻击场景下跨模态模型鲁棒性差的问题,提出面向混合粒度攻击与防御的跨模态微调方法,解决了混合粒度攻击场景下跨模态模型鲁棒性差的问题。该方法分为两个阶段,在攻击阶段,通过混合攻击方法同时在Token粒度和Embedding粒度产生攻击,可以在近似语义空间中获得高质量的对抗样本,该对抗样本同时包含了近似语义攻击和微小扰动攻击。在防御阶段,为使模型能够抵抗混合攻击,本研究利用蒸馏损失在混合攻击的输出分布和原始模型的输出分布之间进行知识蒸馏,为跨模态微调阶段提供动态监督,提升下游任务模型的鲁棒性。本文在多个视觉-语言下游任务数据集对面向混合攻击与防御的跨模态微调方法进行验证,实验结果表明该方法对下游任务准确率提升显著,从而验证了面向混合粒度攻击与防御的跨模态微调方法的有效性。