基于深度神经网络的多模态情绪分析研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:softmysoft
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,精于理性计算的智能系统还不能自然地与人类进行情感交互。为了实现真正的人类智能(语义理解+记忆情感),研究者们提出了情感计算的概念,希望赋予计算机识别和表达情绪的能力。现实场景中人们主要通过表情、姿势和声音来强调特定的观点或表达情绪。这种方式不仅涉及到词汇/语法,而且视觉和听觉也是重要的信息传达方式。为了准确识别人类的情绪,我们需要开展相应的情绪分析工作:结合深度神经网络技术实现多模态数据——文本数据、视觉数据、听觉数据的融合,从而感知人类内在的情绪状态。针对多模态数据中的跨模态时序依赖、复杂的高阶交互以及数据异质性等问题,本文开展了基于深度神经网络的多模态情绪分析研究,主要工作包括:(1)针对多模态时序数据中的跨模态时序依赖问题,本文提出了基于分层匹配的多模态数据融合框架,对跨越不同模态的短时和长时动态关联信息进行建模。为了实现从一到二再到多的多模态数据融合过程,该网络框架采用分层的方式以对应两种类型的匹配机制。首先,通过耦合匹配矩阵将两个模态的特征向量一一匹配,对显式的时序动态关联进行表示。之后,通过利用两模态匹配融合表示中特定模态的共有时间信息将多个匹配融合矩阵链接起来得到多模态匹配张量表征。实验结果表明,与其它基准算法相比,基于分层匹配的多模态数据融合框架具有更高的准确率以及更少的参数量,体现出该框架高效的参数效率。(2)针对注意力机制因只粗略考虑到输入特征的一阶统计特性而导致的细粒度信息丢失问题,本文提出了多模态高阶注意力机制,通过高阶多项式的形式对不同模态输入特征之间复杂的高阶关系进行建模,从而得到更具区分性的注意力表示。基于多模态高阶注意力模块,我们进一步搭建了多模态混合高阶注意力网络以保留更全面的高阶交互关系,从而提高了模型的性能。实验结果表明,利用高阶交互得到的注意力表示能够实现更有效的多模态特征融合。(3)针对双向长短时记忆网络的顺序计算性质对时序数据计算并行化的影响以及异质多模态数据特征分布不一致的问题,本文提出了基于跨模态注意力和模态不变表示的多模态适应融合模型。通过Transformer的自注意力机制建立单模态输入数据中不同时刻之间的交互以避免循环计算结构的出现。同时,将传统Transformer模型中的注意力机制扩展到多模态场景下以解决不同模态序列数据间存在的长期依赖关系,并进一步在模态不变空间中计算与各模态对应的模态不变表示以减少不同模态特征之间的差异。实验结果表明,多模态适应融合模型能够在CMU-MOSI和You Tube数据集上取得当前最佳的表现。以多模态数据为基础,以情绪分析任务为导向,我们进行了基于深度神经网络的多模态情绪分析研究,这些研究成果既是对当前多模态数据融合技术的有效补充,也为情绪分析问题提供了更多的思路和解决方案。
其他文献
互联网给人们的生活带来了便利,但是也造成了各种安全问题。不法分子为了牟利在互联网上发布各种不良信息,比如:垃圾邮件、色情广告信息等。大量的不良信息不仅会破坏网络环境、影响人们的上网体验,而且会影响到青少年的身心健康,甚至会危害社会治安。现有的不良短文本识别方法能够过滤掉部分不良信息,但在识别带变体的不良短文本时效果不佳。变体是不法分子为了逃避检测而在其发布的不良短文本中添加的一种干扰噪声,其中同音
学位
脑胶质瘤是最常见的原发性中枢神经系统肿瘤之一,具有极高的发病率和致死率。磁共振成像(Magnetic Resonance Imaging,MRI)能对大脑软组织进行高空间分辨率和高对比度成像,是医生进行脑胶质瘤影像诊断的最佳选择,但人工判读的过程不仅费时费力,而且严重依赖于主观经验,存在极大不稳定性。目前,基于深度学习的图像分割算法能够实现脑胶质瘤的自动化分割,有效地提高了医生的诊断效率。然而,由
学位
细粒度图像分类是用来区分同一类别下不同子类的。由于该任务存在类间视觉差异细微的难点,细粒度分类任务相对于通用分类更具挑战,如何从图像中学到更具判别性的局部特征是解决此问题的关键。在现有细粒度分类方法中,双线性模型和破坏重建模型被认为是应对细微类间差异最有效的两种模型。双线性模型可以不依赖额外标注信息,通过特征交互自主挖掘判别性特征。破坏重建模型则通过打乱图像的全局语义信息生成破坏图像,迫使网络去学
学位
印刷线路板(Printed Circuit Board,PCB)的缺陷检测已经成为电子制造业保证产品质量和降低制造成本的关键过程。目前自动光学检测(Automatic Optic Inspection,AOI)是PCB缺陷检测的主要发展方向,AOI首先将标准图像和采集图像进行配准,然后再对两者进行比对和缺陷识别。在该过程中图像配准的优劣直接影响缺陷检测的效率和精度。PCB图像具有高分辨率的特点,现
学位
数字水印以人眼不易察觉的方式将秘密信息隐藏在载体对象中,以实现对目标的版权保护、身份认证、篡改检测等。其中,可逆水印技术能够无损恢复原始数字载体,在如档案图像、医学图像、军事图像等对原始数据有高质量要求的领域具有重要的意义。近年来,深度学习技术发展迅速,在很多研究领域都取得了巨大突破。但由于可逆水印算法往往涉及一些复杂而又巧妙的机制设计,以此在保证可逆性的同时兼顾水印容量和图像质量,而深度神经网络
学位
作为现代经济的核心,金融既是实体经济的血脉,也深刻影响着收入分配。但近年来,金融“脱实向虚”的趋势和经济金融化的问题不断凸显。经济金融化具有自发性,需要政府进行调控干预。从引致增长的效应看,节制的金融化有助于社会财富收入的增长,但过度的金融化则会产生抑制作用和增长停滞效应;从引致贫困的效应看,金融化会拉大贫富差距,过度的金融化将严重拉低劳动者参与社会财富分配的份额,无益于我国按劳分配的主体分配制度
期刊
碰撞检测是虚拟仿真模拟中的一个重要研究问题。随着虚拟环境的复杂度不断增大,虚拟仿真应用对物体碰撞检测精度和速度的需求也逐渐提高。目前的层次包围盒碰撞检测算法已经在准确性方面达到了一定的效果,但是随着虚拟环境复杂度的提升,其实时性需要进一步提高。因此,通过对不同类型包围盒的特点进行综合分析,本文对传统混合包围盒碰撞检测算法进行改进,主要研究工作如下:(1)对基于双重结构的层次包围盒碰撞检测算法进行改
学位
给定一张图像和一个自然语言描述的关于图像的问题,视觉问答任务旨在学习模型,根据问题对图像内容进行细粒度理解,并在此之上展开视觉推理以给出准确的预测答案。该任务是近年来人工智能、计算机视觉等领域的研究热点。现有视觉问答方法通常只关注图像中的视觉物体,忽略对图像中关键文本内容的理解,从而限制对图像内容理解的深度和精度。为解决该问题,针对图像中场景文本理解的“场景文本视觉问答”任务应运而生。为理解图像中
学位
高端瓷砖对图案精度要求非常高,一般通过工业3D打印机在瓷砖毛坯上打印图案再烧制完成。工业3D打印机有6~12个通道,每个颜色喷头有4个量化级别。将标准图像格式的瓷砖设计图分成打印机对应的6~12个通道,得到分色图(256个量化级别),再将分色图转换为颜色喷头所需的多级半色调图(4个量化级别),这个过程被称为半色调过程。据调查,分色和多级半色调图生成技术及其系统基本都是国外控制,因此,这类关键技术给
学位
无线能量传输(WET)通过电磁波为散落的传感器节点持续供电,从而使无线传感器网络(WSN)的使用寿命得到延长。但是,提供的能量可能仍然无法满足传感器节点的能量需求。这个问题可以通过部署冗余传感器节点来缓解。同一监测区域内可部署多个传感器节点,它们同时接收能量以增加收集的总能量,并执行休眠/唤醒调度减少每个节点的能量消耗。针对不同场景,本文研究了冗余部署模型在无线传感网络(WSN)中应用的问题。(1
学位