面向鲁棒性的跨模态预训练关键技术研究

被引量 : 0次 | 上传用户:jiangshuang_1975
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在深度学习领域,如何在有限数据下训练高效的深度学习模型是需要面对的一个基本问题。解决该问题的一个有效方法是通过预训练-微调范式。受到BERT、GPT等工作的启发,国内外研究者已经提出几种联合表征图像和文本的跨模态预训练-微调方法,但是目前的研究不能从构建模型阶段、预训练模型阶段和微调模型阶段的全局角度考虑跨模态预训练研究的鲁棒性,因为当前的研究存在以下三方面的不足。第一,在构建模型阶段,存在表征不对称场景下的跨模态融合问题。由于同时期的跨模态预训练研究并不能实现端到端的学习过程,因为输入的视觉信息是经过深度神经网络提取的视觉区域特征,而文本信息并未经过深度表征,利用当前的跨模态信息融合方法不但会引入文本浅层噪声信息,而且还忽略了跨模态信息的跨层交互,导致跨模态模型鲁棒性变差。第二,在预训练模型阶段,存在跨模态视觉语义表征稀疏的问题。已有的跨模态预训练模型在视觉分支使用了有监督的分类任务,该方式限制了跨模态视觉语义信息获取细粒度表征的能力,当面对视觉内容产生细粒度的语义变化时,模型鲁棒性变差。第三,在微调模型阶段,存在混合粒度攻击场景下跨模态模型鲁棒性差的问题。因为在面对场景复杂多样的跨模态下游任务时,跨模态模型容易受到不同扰动粒度的攻击,该扰动攻击可能同时来自连续形空间产生的微小扰动以及文本离散空间产生的近义词替换,从而使模型做出错误预测,导致跨模态模型鲁棒性不足。本文针对面向鲁棒性的跨模态预训研究集中在以下三个方面,即表征非对称下的跨模态信息跨层融合方法,面向密集视觉语义表征的跨模态无监督预训练方法和面向混合粒度攻击的跨模态鲁棒性微调方法。并取得了以下创新成果:1)针对表征不对称场景下的跨模态信息融合问题,提出基于四元复数内积的跨层融合方法。在已有的研究中,视觉输入信息通常来自视觉区域特征,此时视觉、文本信息存在不对称性的表征,现有的Transformer机制只针对同层的跨模态信息进行融合,所以当前的方法不但会引入文本浅层噪声信息,而且忽略了不同层跨模态信息的交互,导致跨模态模型鲁棒性变差。本文提出基于四元复数内积的跨层融合方法,利用该方法构建了四元复数块堆叠的网络(Quaternion Block Network-QBN),解决了表征不对称场景下的跨模态信息融合问题,实现了跨模态信息跨层融合。在四元复数块内,通过多层内容学习,多层关系学习不但可以去除文本浅层噪声信息,还可以捕获不同模态之间的跨层交互,提升模型鲁棒性。另外,通过文本特征对视觉特征进行动态缩放,验证了引入更多文本相关的视觉特征可以有效地提高模型性能。本研究利用VQAv2数据集对提出的QBN模型和子模型进行验证,QBN模型在视觉问答任务(VQA)的效果可以超过同时期的其他模型,甚至可以超过早期的跨模态预训练模型效果,验证了基于四元复数内积的跨层融合方法的有效性。2)针对跨模态视觉语义表征稀疏的问题,提出面向密集对比学习的跨模态预训练方法(Dense Contrastive Visual-Linguistic Pretraining-DCVLP)。在已有的跨模态预训练研究中,针对视觉区域特征添加了基于掩码的分类和回归任务来进一步提升预训练模型的效果,但是该方法属于有监督的代理任务,会引入稀疏的语义理解,导致跨模态模型面对细粒度的复杂问题时鲁棒性变差。本文提出面向密集对比学习的跨模态预训练方法,解决了跨模态视觉语义表征稀疏的问题,实现了自适应的学习跨模态细粒度语义的共现性,确保当视觉内容产生细粒度的语义变化时,模型能够具有鲁棒性。本文设计了两种实现密集对比学习的跨模态预训练方法:基于掩码扰动任务的跨模态对比预训练方法和基于对抗扰动任务的跨模态对比预训练方法。本文通过在经典的单流模型和双流模型对提出的面向密集对学习的跨模态预训练方法进行验证,实验结果表明该方法对原有模型效果提升显著,证明了该方法的广泛适用性。该方法在多个视觉-语言下游任务的效果可以超过同时期的其它模型,证明了面向密集对比学习的跨模态预训练方法的有效性。3)针对混合粒度攻击场景下跨模态模型鲁棒性差的问题,提出面向混合粒度攻击与防御的跨模态微调方法,解决了混合粒度攻击场景下跨模态模型鲁棒性差的问题。该方法分为两个阶段,在攻击阶段,通过混合攻击方法同时在Token粒度和Embedding粒度产生攻击,可以在近似语义空间中获得高质量的对抗样本,该对抗样本同时包含了近似语义攻击和微小扰动攻击。在防御阶段,为使模型能够抵抗混合攻击,本研究利用蒸馏损失在混合攻击的输出分布和原始模型的输出分布之间进行知识蒸馏,为跨模态微调阶段提供动态监督,提升下游任务模型的鲁棒性。本文在多个视觉-语言下游任务数据集对面向混合攻击与防御的跨模态微调方法进行验证,实验结果表明该方法对下游任务准确率提升显著,从而验证了面向混合粒度攻击与防御的跨模态微调方法的有效性。
其他文献
报纸
文本情感分析旨在利用信息技术挖掘文本背后所表达的情感与态度,是自然语言处理中重要的任务。情感分析能够分析文本背后对于商业商品、社会实践、机构、公共话题的看法与态度,有着重要的科研价值与社会价值。近年来,大规模预训练模型成为自然语言处理中的里程碑式创新,其能产生结合上下文的词表征,同时通过大规模无监督预训练存储了大量的语义知识。在情感分析相关的诸多任务中,大规模预训练模型均明显地提高了准确率,但仍然
学位
SfM方法在三维稀疏重建方面获得了巨大的成功,但面对大规模场景重建问题时,该方法仍面临着严重的挑战。针对现有混合式SfM方法场景划分影像分布松散、子簇扩展效率低,以及子簇合并稳健性差等问题,本文提出一种顾及场景连通性的混合式SfM方法。首先,提出一种基于归一化割的多因子联合场景划分算法,有效地解决了场景划分后子簇内影像空间分布松散的问题;其次,提出一种顾及分区连通性的子簇均衡扩展算法,提高了扩展的
期刊
报纸
《百年孤独》作为魔幻现实主义巨著,运用多种艺术手法叙述了马孔多和布恩迪亚家族七代人的命运,丰富的隐喻使得小说富有灵性和美感,其中冰块和镜子这两个极具相似性的意象不仅承担了重要的叙事功能,而且在人物的性格塑造、自我认证和命运走向中不可或缺。本文从《百年孤独》的冰块和镜子意象切入,对其特质分别归纳总结,结合情节、人物和主题解读多重意蕴,在拉康镜像理论的视角下分析布恩迪亚家族自我意识的构建,最后深入主题
期刊
报纸
期刊
目的 分析子宫内膜异位症患者腹腔镜术后联合应用亮丙瑞林和孕三烯酮的疗效。方法 选取2018年3月—2020年6月厦门市妇幼保健院收治的Ⅲ~Ⅳ期子宫内膜异位症患者96例为研究对象,根据术后给药方案不同分为对照组(48例)和观察组(48例)。两组患者均实施腹腔镜手术,对照组患者术后予以孕三烯酮治疗,观察组患者术后予以亮丙瑞林联合孕三烯酮治疗,比较两组患者的临床疗效。采用电化学发光法检测两组患者治疗前后
期刊
阅读理解自然语言文本是人类重要的语言处理能力,让智能机器具有与人类类似的阅读理解能力是人工智能研究者长期的梦想之一。具有阅读理解能力的机器可以极大地缓解人们日益增多的文本信息处理负担,具有广阔的应用前景。作为发展高级阅读理解能力的第一步,研究人员在二十多年前就提出了 机器阅读理解(Machine Reading Comprehension,MRC)任务,即给定无结构自然语言文本,机器能基于此回答与
学位
近年来电动自行车广泛流行,给群众日常出行带来便利,但相关的行业标准还处于持续完善阶段。文章从儿童视力保护的角度探讨电动自行车近光灯的设计,通过调研当前电动自行车近光灯的光源属性、安装高度与照射角度、儿童人体尺寸、电动自行车与儿童的相对速度等数据,经数理计算和统计分析得出儿童群体受影响的情况,再推导出从近光灯的安装高度、光强、辐射强度、光强自动调节来优化的设计策略,为电动自行车近光灯的人性化设计提供
期刊