【摘 要】
:
随着社交媒体的快速发展,用户可以通过各类社交平台发布大量带有个人观点或者情感倾向的视频内容,交流方式不再局限于文本、图像等单一模态。为了更好地利用这类情感数据以便将情感分析广泛运用于心理治疗、视频意见挖掘、自动驾驶等领域,研究人员对情感分析的研究也逐渐从单模态情感分析扩展到多模态情感分析。因此,本学位论文从包含信息种类最多的视频数据出发,从中分离出文本、语音和图像模态,并结合深度学习技术对多模态情
论文部分内容阅读
随着社交媒体的快速发展,用户可以通过各类社交平台发布大量带有个人观点或者情感倾向的视频内容,交流方式不再局限于文本、图像等单一模态。为了更好地利用这类情感数据以便将情感分析广泛运用于心理治疗、视频意见挖掘、自动驾驶等领域,研究人员对情感分析的研究也逐渐从单模态情感分析扩展到多模态情感分析。因此,本学位论文从包含信息种类最多的视频数据出发,从中分离出文本、语音和图像模态,并结合深度学习技术对多模态情感分析中的模态内特征提取和模态间特征融合两个研究方向进行探索与改进。1.针对将长视频中的所有图像信息进行特征提取存在网络结构庞大、优化困难的问题,考虑对所包含的视频特征信息(文本、语音和图像)分别进行数据预处理和特征提取方式改进,设计了一种基于多神经网络的多模态情感分析模型。首先,对文本、语音和图像分别进行全局词向量表示、梅尔频率倒谱系数和以音高特性进行关键帧提取的预处理。其次,结合具有双向门控循环单元、自注意力机制、时序卷积网络、VGG16网络构建了多模态特征提取模块。最后,利用余弦相似度对各模态组合进行权重分配。实验结果表明,所提模型在CMU-MOSEI数据集上取得了69.88%的分类精度。2.针对多个模态间交互不充分,导致特征信息融合效率低的问题,考虑在多个语义层次使用多个融合策略模拟模态间交互并进行情感信息融合,设计了一种基于注意力机制的分层次交互融合多模态情感分析模型。首先,使用双向门控循环单元对各模态上下文语境关系进行建模。其次,使用基于门控的注意力机制和改进的自注意力机制交互融合策略提取不同层次的特征。然后,通过自适应权重分配模块对不同的模态融合特征进行情感贡献度计算。最后,对融合特征进行情感分类。实验结果表明,所提模型在CMU-MOSI和CMU-MOSEI数据集上分别取得了79.5%和78.7%的分类精度。
其他文献
随着移动互联网时代的发展,易于获取的Wi-Fi信号常被用于提供室内定位服务。基于信道状态信息(Channel State Information,CSI)的室内Wi-Fi定位因其部署成本低、定位精度高、环境适应性强等特点而备受关注。然而,CSI的不稳定性会导致对其处理的复杂性显著增加,且无线信号的时变性也将影响定位精度。对此,本文提出了一种基于CSI张量分解的室内Wi-Fi指纹定位方法,其主要内容
基于深度学习的实例分割是图像处理领域的热门分支和极具挑战的任务。实例分割不仅需要具备目标检测定位目标位置和语义分割区分目标类别的能力,还需要分辨出同一类物体的不同个体。目前两阶段实例分割可以达到较好的分割精度,但单阶段实例分割凭借更简单的网络结构,在速度上更胜一筹。基于轮廓点在极坐标上表示掩膜的方法为单阶段实例分割开辟了新的思路,其优点在于简化了实例掩膜的建模过程,同时在训练阶段没有锚框的限制。本
随着集成电路和微波技术取得重要突破,毫米波雷达被广泛应用于多个领域,正逐渐成为物联网发展中的关键性技术。相比传统的非接触式视频传感器,毫米波雷达因具备全天时、低成本及隐私性强等特点成为当下目标检测领域的研究热点。因此,研究毫米波雷达目标检测对于智能安防领域及智慧交通领域等应用具有重要现实意义。但在多目标检测场景下,毫米波雷达仍面临着无法有效区分多个目标以及检测算法性能不佳等问题。本文围绕上述问题开
随着数字化技术的发展,计算机辅助诊疗系统已经大量应用于口腔医学领域。三维牙齿模型分割是计算机辅助诊疗系统的关键步骤,其分割结果可以为临床诊断提供重要的参考信息。现有的三维牙齿模型分割方法通常利用深度学习技术进行全自动的牙齿分割,相比于传统分割方法具有更好的鲁棒性和泛化性。然而,由于临床环境中患者牙齿结构的复杂性,三维牙齿模型通常存在牙齿错位、缺牙等情况,这使得现有方法的分割性能仍然面临巨大挑战。在
图像语义分割在自动驾驶、医疗影像分析和视觉增强等领域中发挥着重要作用,旨在识别图像中每个像素点的类别,是计算机视觉领域中极具挑战性的像素级分类任务。目前,随着深度学习技术的发展及海量数据的大力支持,图像语义分割发展迅速。在自动驾驶领域,要求图像分割具有较高准确度和较快推理速度,现阶段研究普遍采用复杂的网络结构和大量的卷积层堆叠,导致算法模型时延高及内存占用大,不利于真实场景应用。本文基于卷积神经网
随着大量监控摄像头的部署,计算机视觉技术成为视频分析、处理的必要手段。而行人重识别作为行人追踪、关键事件分析等的基础任务,在公安刑侦、智能商业中具有广泛的应用需求。除受限于手工标注数据的昂贵代价外,行人重识别模型在未知场景测试时,性能会大幅降低。因此,本文针对无监督跨域自适应行人重识别进行了深入研究,主要工作如下:1.针对在一个数据集上训练的模型直接在未知域测试时的性能衰退问题,本文提出一种基于双
文本情感分析是获取文本数据中用户情感倾向的重要手段,其中方面级情感分析作为细粒度文本情感分析任务,有着更准确、更精细的分析对象以及重要的研究价值,被广泛应用于舆情监控、商品评论分析等领域。本文分别对方面级情感分析任务中的方面术语情感分类和端到端方面级情感分析这两个子任务进行分析研究。主要研究内容如下:1.针对现有方面术语情感分类方法中情感特征提取不足以及其它方面术语存在干扰的问题,提出一种基于多注
近年来,无线语音通信技术取得了显著的进步,各种语音交互设备和软件也不断涌现,通话过程中语音质量的好坏将直接影响到用户的听觉体验,声学回声是干扰语音通话质量的主要原因。在高信噪比的通话场景下,传统的声学回声消除算法可以大幅提升语音质量,但是当人们离通话设备较远或者身处的声场环境中存在各种噪声时,声学回声消除算法的性能面临着巨大的挑战。为了在这些复杂场景下仍保持良好的语音通信质量,本文设计了一种结合了
移动无线传感器网络(Mobile Wireless Sensor Network,MWSN)中的低功耗有损网络(Low Power and Lossy Networks,LLN)路由协议(Routing Protocol for LLN,RPL)是一种适用于静态场景的路由协议。然而随着人类生产生活方式的不断改变,在RPL路由协议中加入移动传感器成为了必然趋势,如智能家居、医疗交通、智慧农场等。本文
近年来,云计算、物联网和大数据等关键技术的快速发展给作为核心基础设施的数据中心带来了极大的挑战。这些面向数据中心的应用,需要服务器之间高效的互连。这样的互连对数据中心网络链路和交换器提出了更高的带宽需求。同时,为了降低运营成本,数据中心服务器之间的互连必须满足低能耗的需求。因此,如何解决数据中心互连网络中更高带宽、更低能耗问题是当前通信领域的一个重要研究方向。为了提高网络带宽、降低能耗,本文将结合