基于深度学习的语音情感特征学习方法研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:hujunmin18
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为人类情感行为理解的一种基本方式,在过去的十几年内,语音情感识别已经吸引许多相关领域研究者的关注。虽然语音情感特征提取和分类器设计已经取得进步,然而由于说话人和内容的差异,以及环境扰动等因素的影响,设计具有鲁棒性的语音情感识别系统仍然是一个具有挑战性的问题。另外,目前先进的语音情感识别系统都严重依赖于一个共同的假设,即训练数据和测试数据来源于同一种分布。然而在现实应用中,来自不同域的语音信号在说话人、语言、情感类型、录制环境以及使用的标记方法等方面具有一定差异。因此急需研究容忍说话人、说话内容变化以及环境因素干扰的显著情感特征学习或提取方法以及语音情感特征迁移学习方法。  深度学习方法能够从输入信号中学习出非常有效的信号的层次非线性表示,并且成功运用到语音识别、图像理解等相关领域之中。受此思想的启发,对无监督语音情感特征学习方法进行分析,并提出基于卷积神经网络的语音情感显著特征学习方法和基于PCANet的语音情感特征迁移学习方法。所学习显著的语音情感特征能够在复杂场景下(如说话人和语言差异,环境因素扰动等)获得稳定和鲁棒的系统性能,并能解决跨库引起的域间差异问题。具体研究内容与创新点如下:  1)采用无监督学习方法对语音情感特征进行学习和分析,采用几种典型的无监督特征学习算法(稀疏自动编码器,稀疏受限玻尔兹曼机,K均值聚类)对无标注情感样本进行学习以发现与情感相关的特征。同时,对模型所涉及到的参数如:块(patch)大小与隐层结点数量等超参数的选择进行详细的分析和比较。该部分工作对语音情感特征的自动学习和提取具有很好的参考作用。  2)提出基于卷积神经网络的语音情感特征学习新方法。该方法分为两个阶段。第一阶段采用无标注样本训练稀疏自动编码器学习得到局部不变特征。在第二阶段将局部不变特征作为特征提取器的输入,并在目标函数中引入体现正交性、显著性和可区分性惩罚项。从而将情感无关的特征从语音信号中分离出来,学习得到情感变化相关的、显著的语音情感特征。在四个公开数据集(SAVEE,Emo-DB,MES,DES)上的实验结果表明提出的特征学习方法在复杂环境下(说话人与语言变化,环境扰动等)产生稳定和鲁棒的特征表示,同时在识别准确率上超过传统手工提取的情感特征。  3)提出基于PCANet的语音情感特征迁移学习新方法。该方法通过PCANet(一种深度网络)尝试学习产生从源域到目标域路径上多种中间特征表示,同时利用目标域特征空间对路径上的其他特征空间进行矫正以控制它们用一种正确方式往目标域靠近。在三个公开数据库上(源库:ABC,Emo-DB以及FAU AEC Ohm;目标库: FAU AEC Mont)的结果表明提出的语音情感特征迁移学习方法在召回率方面优于传统机器学习方法。
其他文献
在未来作战中,无人机(Unmanned aircraft vehicle,UAV)的作用与地位是举足轻重的。如果无人机的作战活动只能依靠地基网络,那它的活动范围就大受限制;而如果无人机的作战活动完全
随着信息化步伐的加快,软件危机呈现出愈演愈烈的趋势,如何有效维护和利用现存软件资源去缓解危机的研究也变得更加紧迫。软件逆向工程的主要任务是分析系统、抽象系统和展现
机会传感网络中,由于感知区域地形的限制和网络通信质量的不断变化,整个网络可能被分割为多个互不相连的子区域,各区域间通过Ferry节点进行间歇性连通。网络拓扑频繁改变,导
21世纪是计算机软件发展的春天,软件系统朝着网络化、服务化和全球化的方向不断发展。然而发展的同时也暴露出软件行业的一些弊端,在很多软件开发过程中,面对不断变化的性能
如今,人们对便捷化和智能化生活的需求越来越多,基于视觉的人体行为识别分析被广泛的应用在人机交互,安全防护,教育教学等领域。因此,高准确率的实现行为的识别和分析具有极
海洋Argo浮标监测数据具有不确定、轨迹分布、大批量以及由于Argo浮标“随波逐流”等特点,导致浮标观测剖面在时间和位置上的不确定性,Argo浮标受海水漂流和恶劣气象的影响,会造
数据挖掘是信息科学及其应用中一个非常有前景的发展方向。数据挖掘,也叫做知识发现,用于提取蕴涵于大型数据库、数据仓库、互联网、其它数据源、以及数据流中的代表有用知识
随着科技的发展,移动通讯设备已经成为人们生活中不可缺少的通讯工具。随着软硬件技术的发展,移动通讯设备在为人们提供优质通讯功能的同时也在为人们提供越来越多的附加应用
随着业务需求不断变化,业务流程的设计,优化和管理成为企业竞争的重要手段。目前工作流技术已成为流程定义,管理,监控的核心技术。传统的关系数据库不能有效的表示工作流定义
随着多媒体技术的飞速发展,视频的应用已逐渐成为当前多媒体技术的研究重点。其中视频对象分割技术成为各种视频处理技术的基础,视频对象提取效果的好坏将直接影响后面的视频应