面向多模态智能人机交互的语义关联信息融合方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:scenery747
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人工智能技术的发展赋予机器感知世界的能力,促使计算机与人的交互方式越来越接近真实人类,因而“以人为中心”的基于图像、语音、文本等数据的多模态智能人机交互逐渐成为研究热点,其中的核心问题是对多模态数据的语义联合理解。多模态信息融合是解决这一问题的有效方法,其通过捕捉多模态数据中的关联关系,进行相关信息融合,获得能表达多模态数据联合语义的融合特征。然而,多模态数据中存在的“语义鸿沟”、“异构鸿沟”和“数据缺失”问题使之难以进行高效融合,导致现有方法存在以下三种严重缺陷:(1)无法获取细粒度信息关联,难以消除多模态融合特征中的冗余数据;(2)无法捕捉高级语义关联,难以理解复杂的多模态信息;(3)无法获取大规模高质量标注数据,难以提高语义特征的泛化能力。本文专注于基于多模态数据相关性的信息融合方法的研究,同时将其应用于多模态智能人机交互中的两大重要任务:视觉问答和情感识别。视觉问答是通过联合分析视觉图像与文本问题两个模态的数据,推理出问题的答案并以文本形式反馈给用户。情感识别则是通过分析语音或图像信号,识别用户情感状态,帮助机器做出人性化反馈。本论文的研究与创新如下:提出了基于图像与文本相关性的二维注意力特征融合方法,以捕捉多模态数据的细粒度关联,从而缓解异构鸿沟的不利影响。二维注意力特征融合方法利用视觉空间注意力和多模态特征级交叉注意力捕捉多模态信息在空间维度与特征通道维度的关联,利用这种细粒度关联加强相关特征并减弱冗余特征,从而提升了多模态特征的表达能力。其中,视觉空间注意力能够获取图像中与文本相关的视觉对象信息,多模态特征级交叉注意力则包括两个方面:(1)获取图像特征中与文本相关的特征通道;(2)获取文本特征中与视觉信息相关的特征通道。二维注意力特征融合方法利用多模态残差融合方法将图像与文本这两种异质信息进行融合。本文将二维注意力特征融合方法应用于视觉问答任务,在大规模视觉问答数据集上进行了大量的实验,结果表明本方法在数据集VQA1.0上相对于最佳模型(MFH+Co Att+Glo Ve)答案预测精度提高了1.41%,在VQA2.0上相对于最优模型(BAN+counter)提高了0.42%。提出了基于多模态模内模间语义关联的多层信息流融合方法,挖掘多模态数据中每个模态内部以及多个模态间的关联关系,克服“异构鸿沟”的不利影响。首先通过缩减点积注意力关系学习算法提取模态内部和模态间的相关信息流,并进行模内模间信息融合。然后以逐层递进的方式进行多次模内模间信息融合,进而提取出高级多模态语义关联信息,实现对复杂多模态语义信息的理解。本文将多层信息流融合方法应用于带文字的图像视觉问答任务,在公开数据集Text VQA上进行了大量的定量定性分析实验。实验结果表明,本方法相对于基线模型(Pythia+Lo RRA),答案预测精度提升了5.42%。提出了基于视觉与语音互补性的多视角伪标签融合方法,通过为无标签数据生成相对准确的伪标签缓解了“语义鸿沟”的负面影响,从而解决了高质量标注数据缺乏的问题。多视角伪标签融合方法首先利用跨模态知识迁移方法将图像中人脸情感状态迁移到对应的语音模态,为无标签语音模态生成视觉角度的伪标签,紧接着使用半监督学习方法为无标签语音数据生成语音模态的伪标签,然后利用多视角标签融合方法提升伪标签的精度,从而得到无标签数据的情感语义信息,最后联合伪标注数据与少量标注数据训练模型。本文将多模态多视角伪标签融合方法应用于语音情感识别任务,并进行了大量的对比和消融实验,实验结果表明在中文数据集CH-SIMS上相对于监督学习方法情感识别精度提升了6.21%,在英文数据集IEMOCAP上相对最佳模型(Acoustic DAE)提升3.96%。此研究能应用于教育、娱乐、智能客服和辅助视觉等领域。在教育娱乐方面,提供有趣的智能化交互服务,如看图回答问题。在智能客服方面,实现带图像内容的多模态对话功能。在辅助视觉方面,帮助视障人群了解所处环境。
其他文献
随着我国经济建设的快速发展,大跨度铁路斜拉桥的需求日益增长,铁路运输呈现高速、重载、大流量的发展趋势,因此大跨度铁路斜拉桥的动力性能备受关注。考虑现有钢拉索的腐蚀及铁路桥梁的疲劳问题较为突出,具有轻质、高强、耐腐蚀以及抗疲劳等特点的新型碳纤维增强复合材料(Carbon Fiber Reinforced Plastics,CFRP)拉索的桥梁工程应用前景值得探索。本文从材料疲劳试验、结构静动力试验以
学位
存储单元尺寸的缩少、多比特存储和3D堆叠技术的应用,使得NAND闪存以大容量和高密度优势成为存储主流介质。然而,随着闪存单元的磨损和数据保存时间的增加,阈值电压分布易发生漂移,相邻单元电压分布交叉,读取数据出错,引发数据存储可靠性问题。低密度奇偶校验(Low-density Parity-check Code,LDPC码)被广泛应用于3D闪存纠错以提升数据可靠性。闪存中LDPC码纠错性能与原始误码
学位
报纸
毫米波全息成像具有良好的穿透性、毫米级分辨能力、对人体无伤害以及受环境噪声影响小等优点,已成功应用于人体安检、穿墙雷达、无损检测、生物医疗成像等多个领域,该技术具有很高的研究价值和广泛的应用前景。传统的毫米波全息成像系统探测的物理量为振幅和相位,一般采用IQ调制技术同时探测同相信号和正交信号。由于正交信号的探测需要对源信号进行移相,探测难度较大,导致了传统系统探测装置复杂、硬件成本高昂、调试困难等
学位
目的:长非编码RNA(Long noncoding RNA,lnc RNA)已在许多关键的生物学过程中发挥着重要的作用。然而,下丘脑lnc RNA在能量平衡和肥胖中的功能尚不清楚。因此,本研究旨在探讨下丘脑lnc RNA AK044061在小鼠能量平衡调控和营养性肥胖形成中的作用。方法:通过12周高脂食物(HFD)喂养构建食物诱导的肥胖(DIO)小鼠模型。采用链特异转录组测序(RNA-Seq)筛选
学位
第一部分乳腺癌干细胞在乏氧微环境中积累大量糖原目的:乏氧是在乳腺癌微环境中的常见现象,我们前期研究乳腺癌干细胞在乏氧环境中大量增殖,但潜在的机制仍然不清楚。鉴于乏氧肿瘤微环境中糖原合成增加,以及乳腺癌干细胞更倾向于驻留在乏氧肿瘤微环境中,因此我们猜测乳腺癌干细胞是否具有独特的糖原代谢模式呢?我们以基于生物力学原理的三维纤维蛋白软凝胶(3D fibrin)筛选培养的肿瘤再生细胞(TRCs)为肿瘤干细
学位
背景:阿尔茨海默症(Alzheimer’s disease,AD)是导致痴呆症的最常见诱因,随着全球老龄化加重,给患者家庭及社会带来巨大挑战。其病因至今仍未研究清楚,疾病发展过程中涉及多种病理改变,给新药研发造成重重困难。AD最典型的病理分别是由细胞外聚集的beta淀粉样蛋白42(Amyloid beta,Aβ42)形成的老年斑以及由细胞内过度磷酸化的tau蛋白形成的神经原纤维缠结(Neurofi
学位
随着航天飞行器的服役温度不断提高,超高温测量技术也面临着更高的挑战。相比于传统的贵金属热电偶,钨铼(W-Re)热电偶因其测温上限高、热电动势大、机械强度好、价格相对较低等特点,在超高温测量领域具有明显的优势。然而,钨铼热电偶与氧的亲和力高,在高于300℃的有氧环境中开始氧化,通常适用于还原、惰性、真空等环境,非高温氧化性气氛中的高温测量。因此,如何提高钨铼热电偶抗氧化能力,一直是国内外高温测量领域
学位
随着物联网技术的快速普及,物联网系统面临的网络安全威胁也日益加剧。作为已有安全防护机制的有效补充,物理层安全认证技术充分利用无线信号的内在传播特征,对节点身份与消息的合法性进行认证,具有低计算复杂度和高兼容性等优势,适用于具有极简化设计范式的物联网设备。然而,现有物理层安全认证技术未充分考虑物联网环境特性,存在动态场景下可靠性差、资源受限场景下可扩展性不足、高实时性场景下响应时延高等问题。为此,本
学位
纳米发电机作为一种新型能源收集装置,可以将分散式的机械能转化为电能为可穿戴医疗电子器件持续供电。更重要的是,纳米发电机还可以作为自供电传感器,用输出的电压或电流信号主动检测机械振动引起的静态和动态过程,从而避免医疗电子设备依靠电池供电带来的诸多不便及实现医疗器件的智能化。因此,本文主要围绕压电纳米发电机(Piezoelectric nanogenerator,PENG)和摩擦纳米发电机(Tribo
学位