基于时空特征融合的语音情感识别研究

来源 :武汉纺织大学 | 被引量 : 0次 | 上传用户:cyalil
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的不断发展,以人工智能为基础的各种系统已逐渐渗透到人们的日常生活中。语音作为人机交互的前沿窗口,如何识别其中的情感信息成为研究的热点。但是目前语音情感识别任务仍面临精度不足,鲁棒性差的问题,主要是因为以下三个原因:1)人类情感是抽象的,使得情感难以区分;2)人类情感只能在说话过程的某些特定时刻被察觉。3)带有情感标签的语音数据样本通常是有限的。因此本文设计了基于时空特征融合的语音情感识别方法,具体包括:1、为了解决语音数据样本不足和识别精度较低的问题,提出了基于迁移学习的三维注意力卷积循环神经网络模型(3D-DACRNN)。首先通过迁移学习和语音切片的方法来解决语音数据样本不足的问题;其次考虑到迁移的参数来自于图像数据集,不能完全表现语音数据的空间信息且不包含时序信息,因此提出通过膨胀卷积网络(Dilated-CNN)提取语音频谱图的空间信息,添加双向长短期记忆神经网络(BLSTM)提取时序信息,并进行时空特征融合;最后针对语音中含有大量与情感无关特征的问题,本文将对数梅尔频谱图的三个通道作为输入,以减少情感无关因素的影响,并添加注意力机制选取情感权重大的时域信号。2、由于3D-DACRNN模型难以区分相似度高的情感,因此提出了基于Vi T-CRNN多特征融合的语音情感识别模型,将Vision Transformer(Vi T)模型提取的特征与CRNN提取的特征进行融合。首先,Vi T能提取深层全局时间特征,并且相较于CNN更适用于迁移学习任务,能更好的解决语音情感数据样本不足的问题;然后,使用CRNN从原始语音学习更全面的空间特征;最后,将空间特征和时间特征进行拼接,两种特征向量相互补充,提高模型识别率。本文提出了基于三维注意力卷积循环神经网络的语音情感识别模型和基于Vi TCRNN的多特征融合语音情感识别模型,提升了语音情感识别系统的性能和对情感细节特征的捕获能力。在数据集IEMOCAP上3D-DACRNN的UAR提升了4.1%,Vi T-CRNN的UAR提升了6.3%。
其他文献
多孔介质广泛存在于自然和工程领域,其内部的输运机理已成为国内外研究的热点课题之一。由于多孔介质内部孔隙结构的复杂性和随机性,探索气体输运过程时往往忽略了内部孔隙或通道的表面形貌。因此本文拟基于分形几何理论与蒙特卡罗方法,重点模拟具有粗糙形貌的多孔介质中气体输运的详细过程,分析多孔介质结构参数,特别是孔隙表面粗糙度对气体输运特性的详细影响机理。具体研究内容如下:(1)多孔介质模型构建:综合分析多孔介
学位
纺织工业在中国工业中占有相当大的比重,其产品广泛应用于服装,建筑,甚至航空航天。在纺织工业中,产品的表面质量是影响其价格和等级评估的重要因素。传统的检测方法使用人工来检测表面缺陷,不仅速度慢,而且不能保证检测效果的一致性。近年来,随着深度学习在图像各领域的应用取得了成功,为织物疵点的高效、准确检测提供了新方法。语义分割网络可以捕获丰富的上下文信息,对于小目标图像可以进行相对精确、高效的分割,适用于
学位
服装图像风格迁移是把风格转换到服装内容图像中,并且保持服装原有结构和轮廓形状的不变,展示出迁移的风格元素(如纹理、颜色、亮度、材质、图案)。整个服装图像进行风格迁移一般会导致迁移后图像的纹理发生扭曲和形变、颜色变化、轮廓模糊,为了得到更加精细的服装纹理、清晰的服装轮廓以及提供个性化的服装风格定制,本文展开了一项具有重要研究意义和实际应用价值的研究:基于深度学习的局部服装图像风格迁移。论文中提出了三
学位
近些年我国经济和文化的迅速发展,大众生活水平的提升,人们从开始对物质追求逐渐转向对文化、精神层面的追求和提升,博物馆作为一个国家、民族软实力的象征,在其储存、展示文物的基本功能背后,更是展示了一座城市的历史甚至国家文化的精神面貌,而博物馆文创产品是博物馆文化的一种延伸,也是博物馆藏品背后文化内涵的延伸与精炼表达,因为蕴含特色文化和集实用性、创意性与一身,所以更能被大众所接受,让其背后的文化更好地被
学位
新冠肺炎疫情的爆发给人们的生产和生活造成了巨大的影响,研制相关药物和预测疫情发展趋势对疫情的控制尤为重要,这其中涉及到药物设计和传染病传染机制研究两个方面。药物活性与药物分子属性密切相关,有效的评分函数可以增强疾病致病机理的理解,并且传染病内在机制的了解能够有助于药物的有效开发。本论文研究了蛋白质与配体相互作用过程中评估药物分子属性的评分函数的最新研究进展,并结合拓扑学和机器学习算法分析了药物分子
学位
周期伪随机序列在流密码、扩频通信、雷达导航、全球定位等领域中都有着极为重要的应用。作为流密码的密钥流,周期伪随机序列的p-adic复杂度和线性复杂度是衡量其安全性的重要指标。本文主要研究周期伪随机序列的4-adic复杂度和线性复杂度,包括周期为2p2的四元序列的线性复杂度,4-adic复杂度,对称4-adic复杂度,及周期为pq的二元序列的线性复杂度。接着研究周期伪随机序列的应用。主要结果如下。首
学位
随着人工智能研究的不断深入,越来越多的学者们开始考虑如何将最新的算法应用于量化交易领域中。在自然语言研究领域中,舆情分析可以通过各种算法模型来提取文本内容的情感倾向,利用时间序列分析技术,将股票的情感特征输入股价波动预测模型中,就能得到股票上下波动最后的预测结果。随着舆情分析技术不断的发展,学者们逐渐将股票情绪倾向量化后作为构建交易策略的因素之一,使得交易策略更加完善。为了最大可能考虑到影响股价波
学位
随着我国铁路交通的快速发展,铁路安全问题也越来越受到重视,借此也对铁路安全行车的保障技术提出了更高的考验。据统计调查铁路事故原因之一是由司机对动作操作失误所导致的。所以本文以地铁司机为例,从地铁司机的手势动作检测出发,通过对地铁司机手势动作的分类和识别作为研究对象,设计并实现一种可以实时监测和分析地铁司机手势动作的系统,本文主要开展以下工作:1、采集和制作数据集。由于目前还没有公开的地铁司机手势动
学位
地铁带给人们便利快捷的出行条件的同时,其隐藏的风险因素也是不可忽视的,由于地铁基本全都埋藏在地下,其空间狭隘,在发生突发事件的情况下,人员需要快速疏散到空旷的地面,由于地铁的构造的局限性,通行达不到要求,极易引起拥堵,甚至出现踩踏事故,引发安全性问题。本文通过对突发事件下行人心理及行为进行分析,建立符合实际情况的应急疏散模型,构造科学的仿真场景,分析不同情景下行人疏散情况,为地铁设施布局及应急管理
学位
RNA在生物体内有着各种各样的功能,比如传递遗传物质,催化生物化学反应等。由于结构在一定程度上决定分子生物学功能,所以要想精准了解其生物学基本功能,就必须要知道RNA精确的空间结构。因为利用实验方法测得(如X-射线衍射、冷冻电镜)RNA的空间结构比较困难,所以利用计算机通过设计抽样算法和合理的打分函数来预测RNA空间结构成为重要的弥补手段。目前,比较受关注的预测方法有基于知识的片段组装和基于物理的
学位