基于加性角惩罚焦点损失的多模态语音情感识别研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:xp108999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音情感识别作为智能人机交互系统不可或缺的组件,具有重要的研究意义,在医疗辅助、健康管理和生活服务等方面具有广阔的应用前景。深度学习技术的快速发展为语音情感识别注入了新的活力,但现阶段对于语音情感识别的研究仍存在许多不足。大部分工作集中在对手工特征和网络结构的设计上,而忽视了对目标损失函数的设计和蕴含情感信息的多种模态之间的协同作用的探究。为了提高语音情感识别系统的性能,本文针对这些问题展开研究,主要包括以下工作:(1)探究了卷积神经网络结构、池化策略和多头自注意力机制对于模型性能的影响。鉴于不同性别存在情感表达上的差异,本文设计了一种以性别识别作为辅助任务的学习方法,挖掘并利用额外的潜在信息,帮助模型区分不同情感类别。(2)针对类别决策边界模糊和数据集难易样本不平衡问题,本文提出了加性角惩罚焦点损失函数。该损失函数引入角度惩罚因子来严格限制决策边界条件,以提高类内紧密度和类间差异度,并引入焦点因子来根据样本的难易程度调整分配给样本的损失,以促使模型更加关注容易被误分类的困难样本。从两个角度出发进行优化,从而指导模型在训练过程中学习得到更加有效的情感差异特征,提升语音情感识别模型的性能。通过在IEMOCAP、EMODB和SAVEE三个数据集上的实验,验证了该损失函数的有效性,且以该损失函数训练的模型在性能上具有显著的优势。(3)针对情感信息来源单一的问题,本文提出了基于图像、文本和音频信息融合的多模态语音情感识别方法。区别于一般的单模态方法,该方法结合了卷积神经网络提取的声谱图特征、预训练语言模型BERT提取的文本嵌入特征以及预训练声音模型VGGish提取的音频特征,通过综合利用不同模态所蕴含的丰富情感信息,能够更好地捕捉不同情感类别之间的差异特征,再结合性别识别辅助任务与加性角惩罚焦点损失函数,进一步提高模型的识别性能。本文提出的基于加性角惩罚焦点损失函数的多模态语音情感识别模型相比基准模型提高了3%的加权准确率和5%的未加权准确率,并且优于先进方法的表现。
其他文献
随着社会的进步和经济的发展,能源危机日益突出。传统锂离子电池已无法满足人们的能量需求。因此,开发高比容量和高能量密度的电池系统迫在眉睫。锂硫电池因其高理论比容量、原料储量丰富易得、环境友好等优点而被认为最有潜力的新一代电池储能系统之一。然而,锂硫电池大规模的商业应用也存在诸多问题。例如,活性物质硫利用率低、多硫化物的溶解、倍率性能差、循环寿命短、锂枝晶的生长等。本论文利用过渡金属硒化物对多硫化锂(
嗜热链球菌是常见的发酵菌株之一,具有悠久的应用历史,可用于发酵乳及其制品的生产。当前,我国发酵乳市场逐年扩大,功能性发酵乳产品品类日渐多样化、销量逐年攀升,致使优良发酵剂的需求越来越大。但我国发酵剂制备技术起步较晚,国内发酵剂市场一直被跨国公司垄断。目前国内对嗜热链球菌的研究多集中于菌株的筛选和发酵工艺优化,对其基因组和功能特性的系统研究较少。本文旨在开发具有自主知识产权的、源于中国本土的、具有良
染色废水是印染废水中污染最严重的、最难以处理的废水之一。因此,研发一种高效可行的染色废水处理技术对印染废水的处理具有重要意义。过一硫酸盐(PMS)高级氧化技术对染色废水具有较好的处理效果,但是在均相体系中金属离子容易被氧化或沉淀导致利用率低,过量投加又容易对环境造成二次污染。为此,本研究从催化剂自身催化活性和PMS活化方式两个方面展开研究。其一,制备了非均相MnO2/CoFe2O4磁性纳米复合催化
近年来我国建筑业取得举世瞩目的成绩,其中,装配式建筑已逐渐发展成为建筑领域重点关注的方向之一,但仍存在一定的问题与不足,譬如装配式建筑应用与研究发展不均衡,研究对象大多为住宅类项目,公共建筑类项目较少,对于装配率和造价方面的对比大多集中于装配式住宅类建筑与传统现浇混凝土住宅类建筑之间,而不同类别装配式建筑间的对比分析却略有忽视等。本文收集了123栋装配式公共建筑作为研究对象,对其装配率、预制构件和
豌豆蛋白是一种优质全价植物蛋白资源,正逐渐成为传统蛋白质如动物蛋白、乳清蛋白和大豆源蛋白等的流行替代蛋白。然而,目前国内现有加工技术生产的商品化豌豆蛋白易受热变性、溶解度低、功能性较差、风味和口感较差,极大地限制了其在食品中的应用。因此,如何改善豌豆蛋白的整体性能使其更广泛地应用于食品中是一个亟待解决的问题。本课题旨在通过酶法改性提高豌豆蛋白的整体性能,具体研究结果如下:(1)选用谷氨酰胺酶对豌豆
氮化镓(GaN)作为一种宽禁带半导体,用于功率放大器设计时可承受更高的工作电压,具有更高的功率密度和可工作温度。对于既定功率水平,GaN基功率放大器具有体积小和频率特性好的优势,被广泛应用于通信基站。随着无线通信系统的不断发展,单位时间需要传输更多的数据,射频信号峰均功率比不断增大,GaN基功率放大器的效率不断降低,需要在电路拓扑结构方面不断创新以应对挑战。Doherty功率放大器是提高输出功率回
矿柱稳定直接关系矿山工作人员、作业设备的安全。沉积型铝土矿体常赋存于沟壑黄土地貌之下,通常采用条带式房柱法开采。目前国内外相关沉积型铝土矿矿柱稳定性研究,尚未能考虑到复杂地表地貌条件影响。由于上覆沟壑地表地形起伏大,沉积型铝土矿矿柱易出现应力集中、发生剪切滑移破坏等问题,不利于矿区安全稳定。因此,开展沟壑黄土地貌下伏沉积型铝土矿矿柱稳定性研究,提高铝土矿山本质安全技术水平,具有重要意义。论文以山西
随着多媒体技术的快速发展,图片数量迅猛增加,倚靠人工对海量图片进行标注和分类的管理模式已经远远无法满足现实需求。因此,利用计算机技术自动对图像进行分类成为目前的一个研究热点。相比于其它模式识别的任务,场景分类(Scene Classification)任务旨在理解整个场景图像的语义内容和组织方式,因此对场景图像的分类任务一般更复杂。近年来,深度学习(Deep Learning)突破传统人工设计特征
随着我国经济的发展、建筑功能的需求和土地价格的攀升,扁长板式超高层住宅建筑不断衍生而出,已逐渐成为城市里高层住宅建设中的一个非常重要的部分,这类板式住宅建筑的特点是建筑长度明显大于宽度,在容积率、绿化率以及高层的通风采光功能方面都表现出优异的特性。然而在工程实践中常常发现,当板式超高层建筑平面的深宽比(D/B)较大时,荷载规范建议的横风向风荷载(CWL)往往过于保守而成为结构抗风设计中的制约因素。
三相VIENNA整流器具有谐波小、能够实现单位功率因数、开关应力低和无桥臂直通风险等优点。但是,三相VIENNA整流电路的基本PFC结构采用的是Boost单元,存在升压二极管的反向恢复、开关损耗大、电磁干扰大和电能传输效率低等问题,对整流器的性能提升造成了一定的限制。因此,本课题对三相VIENNA整流器的软开关技术开展深入研究,以减小其电磁干扰,提升其电能传输效率。本文的主要工作内容如下:阐述了单