基于注意力CRNN的语音情感识别研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:dd506935273
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
情感是理解话语背后意图的一个主要标志,语音情感识别技术在心理健康分析、智能机器人、驾驶辅助等领域能够有效提高用户在人机交互系统中的工作效率。情感具有复杂性,提取与特定情绪相关的特定特征是语音情感识别研究中的重要方面之一,同时在情感识别领域中,多模态系统在识别说话者的情感方面更有效率。本文针对上述两个方面进行了研究,并设计了一个语音情感识别系统。首先,本文设计了一个语音情感识别系统的总体框架,对其中语音情感识别基础理论和识别模型进行了阐述,并分析了情感识别方面的相关研究方法。通过总结目前研究中存在的问题,明确了将本文的研究重点放在特征提取与模态融合方面。其次,针对语音特征数据冗余、无关特征等干扰容易导致情感识别模型识别率低的问题。本文提出了一种基于注意力的三维卷积循环神经网络(Attentional-based Three Dimensional Convolutional Recurrent Neural Network,3DACRNN)的语音情感特征提取方法。将对数梅尔谱图输入设计的基于残差网络的三维注意力卷积神经网络(Res Net-based Three Dimensional Attentional Convolutional Neural Network,3DRACNN)进行训练,以提取语音情感特征,再由深度双向门控循环单元(Bidirectional Gated Recurrent Unit,Bi-GRU)提取时间信息。分别进行了对比实验,结果证明3DACRNN可以提取有效的情感信息,提高情感识别准确率。然后,针对利用单模态信息无法准确、全面识别说话人情感状态的问题,本文提出了一种基于注意力卷积神经网络双向门控循环单元融合视觉信息(Attentionalbased Convolutional Neural Network Bi-directional Gated Recurrent Unit Fusing Visual Information,VACRNN)的语音情感识别模型。使用面部表情来解释视频中的语音情绪以改善语音情感识别系统性能。利用CNN和一系列具有注意力机制的门控循环单元(Gated Recurrent Units with Attention mechanisms,AGRUs)架构提取表征面部外观和几何形状变化的具有鉴别性的特征依次与预训练3DRACNN得到的语音特征进行融合,利用Bi-GRU融合网络与特征串联方法,综合考虑上下文信息,并在保留模态间信息差异的基础上,得到情感特征用于情感分类识别。实验结果表明,本文方法相较于文献中的方法识别准确率在对应数据集上分别提高了3.68%和4.59%,有效提高了语音情感识别的准确率和鲁棒性。最后,本文将提出的特征提取方法和基于VACRNN的情感识别模型应用到设计的语音情感识别系统中,并在CH-SIMS和自制数据集上进行了实验。实验结果证明本文开发的语音情感识别系统的有效性,同时语音情感识别的准确率和鲁棒性得到了提升。
其他文献
滚动轴承作为各种旋转机械设备的核心部件之一,对其运行状态进行监测和故障诊断是保障旋转设备安全运行的关键所在。在实际工程中,滚动轴承长时间工作在正常运行状态下,可获得的正常状态下的样本数量远大于每类故障发生的样本数量,且各类故障间的样本数目也具有差异,从而导致数据不平衡问题。然而建立具有精确性的轴承故障诊断预测方法,通常需要丰富的故障类样本以分析其故障关键特征。因此,针对轴承样本数据不平衡问题,本文
学位
在工业生产过程中,机械设备的故障时常发生,机械故障可能会引发恶行事故从而造成经济损失和人员伤亡,实时监测机械设备的运行状况可以有效地预防故障和事故的发生,提高设备运行的稳定性,还可以在设备监控过程中对设备开展健康管理,从而延长设备使用寿命。因此,机械设备的监控对工业生产具有十分重要的意义。装备工作时,摩擦副的磨损失效是导致设备故障发生和寿命缩减的重要原因,铁谱分析技术是对设备进行磨损监测的重要技术
学位
目的 脓毒症是脑卒中的诱因,脓毒症休克患者短期或长期发生脑卒中风险明显增高,但所涉及的风险因素和潜在的机制尚不清楚,本研究拟探讨脓毒症休克患者发生脑卒中的相关危险因素。方法 选取2015年6月-2021年8月浙江省东阳市人民医院诊治的脓毒症休克患者914例,根据五年内是否发生脑卒中分为卒中组(226例)和正常组(688例),收集患者基本信息和临床资料,通过logistic回归模型、列线图模型、受试
期刊
装配作为复杂机械产品设计制造的重要环节,具有约束关系复杂、工艺工序繁多、可靠性控制难度大等特点,装配质量对产品的全生命周期至关重要。目前,复杂机械产品装配依然以人工装配方式为主,这种装配方式存在装配周期长、成品合格率低、装配质量一致性差等问题。随着增强现实技术(Augmented Reality,AR)的快速发展,给复杂机械产品装配问题提供了一种全新的解决思路,利用AR装配引导技术可以帮助装配人员
学位
农业场景中的非结构化道路识别是智能农业机器领域的关键技术之一,其主要可以分为两类实现方法,一类是通过数学建模、消失点捕捉、算法聚类和特征综合等传统的方法实现农业场景中的非结构化道路识别;另一类是通过机器学习和深度学习的方法实现农业场景中的非结构化道路识别。传统的农业场景非结构化道路识别方法存在的问题是:(1)农业场景中的道路情况多,传统的方法针对的非结构化道路的情况比较单一;(2)农业场景中的道路
学位
随着制造业与信息化的快速发展,数字孪生技术在各行业的研究与应用得到迅速扩展,机床作为制造业中不可或缺的工业母机,关系着国家经济发展的战略地位。机床铣削过程中,铣削力过大会影响加工过程的质量,甚至可能会导致铣刀磨损、断裂等问题。因此,本文提出了一种基于数字孪生的机床铣削力预测方法,实现机床铣削过程的铣削力预测和多维度表达,同时在数字孪生系统中实现以最小铣削力、最大材料去除率和最小铣削功率为目标的工艺
学位
芳纶织物由于具有较高的比强度、柔韧性、抗腐蚀性等特点,被广泛应用于人体和装备防护领域。当子弹冲击织物时,织物通过三种典型的破坏模式耗散和吸收子弹的能量。这三种破坏模式分别为冲击中心区域纱线的断裂、纱线从织物中拔出和远场纱线的失效。由于子弹冲击织物是一个高瞬态过程,充分理解其作用机理较为困难。因此,为了更好的理解弹道侵彻行为,在准静态条件下对纱线抽拔行为进行了研究。现有纱线抽拔实验已对影响抽拔力峰值
学位
随着计算机技术和人工智能的发展,使得移动机器人更加智能化并且在工厂制造业、物流运输、安全监控、医疗服务等领域有了广泛的应用,自主移动作为移动机器人最重要的智能化体现,其中的关键支撑技术就是路径规划。快速随机搜索树(Rapidly-exploring Random Tree,RRT)算法作为一种快速有效的路径规划方法已广泛应用于机器人导航领域,RRT*算法是RRT算法的改进版本,它通过重选父节点和剪
学位
车载雷达是汽车辅助驾驶系统中一个十分重要的子系统,其应用非常广泛,如自适应巡航、防撞预警、无人驾驶等,具有良好的市场前景和研究价值。微波毫米波雷达相比于超声波、红外雷达具有分辨率高、抗干扰能力强等优势,成为车载雷达领域中的研究热点之一。本文针对车载调频连续波(Frequency Modulated Continuous Wave,FMCW)雷达进行研究,主要研究工作如下:1.研究并设计了FMCW雷
学位
随着半导体技术的快速发展,基于电感的降压型(Buck)开关变换器已广泛应用于各类通信、医疗以及消费等领域。基于此,本文设计了一种基于电流模恒定导通时间控制模式的高精度降压型开关变换器。主要包括以下内容:首先,在分析Buck开关变换器的基本原理的基础上,着重讨论了电流模恒定导通时间(Constant On-Time,COT)控制模式的特点、稳定性和响应速度。其次,在分析电流模COT控制架构频率特性的
学位