基于深度学习的语音情感识别研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:hbuxiaoming
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音情感识别是从给定语音段中自动获取情感类型的技术,随着商业和教育等领域对情感识别需求的不断增加,发展高准确率的语音情感识别系统成为了语音领域的一个热门研究方向。而基于深度学习的语音情感识别方法,特别是卷积神经网络(Convolutional Neural Network,CNN)在这一领域得到了研究者们的重视,一些初步研究取得了良好效果,表现出比较大的研究潜力。然而对于CNN语音情感识别模型仍然有几个方面需要研究和探索,首先,什么样的特征更适合于CNN语音情感识别模型。其次,如何合理地设计网络结构,使其能有效学习到情感区分性信息,最后数据不足的问题是制约语音情感识别发展的一大难题,因此如何利用更多辅助数据来提高识别准确率的方法有待于去探索。针对这这些问题,本文展开了研究和实验。为了探究特征对情感识别的影响,本文首先建立了一个端到端CNN语音情感识别系统,并且在多种特征上进行实验,发现语谱图特征对于语音情感识别有着最佳的性能。在此基础之上本文进一步对于语谱图的不同频域段进行了探索,发现低频率段对于情感识别有着重要的作用。同时本文还对不同情感类别的CNN的激活值进行了研究,以探索不同高层特征区别。这些研究有助于理解不同情感在时频区域上的分布特性。为了进一步利用CNN模型所输出的高层时频信息,产生更有效的情感区分性特征,本文使用双线性池化方法来对CNN语音情感识别模型的高层特征进行建模,它能计算情感高层特征各维度之间的相关性,产生更为丰富的情感特征表示。然而由于情感数据集规模的限制,造成双线性池化的训练较为困难,因此本文使用分解双线性池化对输出特征进行降维,明显提升了语音情感识别的准确率。基于双线性池化理论,本文又进一步提出了基于注意力机制的注意力池化语音情感识别模型,通过引入自顶向下和自底向上注意力权重图,使得各个情感类别得到更好的区分,提升了识别性能。为了利用额外信息,解决情感识别数据不足的问题,同时提高识别准确率,本文提出了利用音素信息和说话人信息的语音情感识别方法。针对音素特征,使用了具有两个分支的CNN网络来协同训练语音和音素特征。针对说话人信息,本文提出了使用残差适应模型进行说话人到情感的域适应。这一方法先通过带有说话人标签的数据集训练一个深度残差网络,再使用情感数据集训练适应模块,以此利用说话人数据集提供的辅助信息来提升情感识别性能。实验验证表明利用音素和说话人的情感识别模型均大幅超过仅利用语音特征的模型。
其他文献
<正>一、目前中国器官捐献的现状分析(一)器官自愿捐献的数据统计中国红十字会副会长郝林娜在全国人体器官捐献试点工作交流会上披露:截至2011年2月底,中国内地通过人体器官
党的十八大以来,以习近平同志为核心的党中央坚持以人民为中心的发展理念,为了提高保障和改善民生水平,顺应人民群众对美好生活的向往,提出了一系列战略思想和政策举措,形成
南岛语民族是一个重要的民族群体,这个民族群体主要分布在东南亚的海岛地区,是海岛地区的主体民族。但研究表明,这个民族群体并不是东南亚海岛地区的土著,而是后来才迁徙过来
文章从几个方面对大型捣固机车的施工全过程注意事项进行了分析阐述,确定了诸如施工方式方法、参数设置、技术标准等各项重要的大机作业指标,并以胶济客运专线作为工程实践对
在当今众多媒介文化形式中,广告颇具影响力。作为一种独特的话语载体,广告以其浓郁的商品性征在现代社会生活中广泛渗透,不断拓展新形势下的广告符码意义以及由此塑造的新的
<正>甲与乙系夫妻关系,乙于1988年死亡,乙死亡后,1995年甲单位房改,分得房改房一套,但是该房同时计算了甲与乙二人的工龄,甲于1998年取得房屋所有权,经询问得知,甲自乙死亡后
职工劳动竞赛是工会工作赋予的职责和工会工作的重要组成部分,它既是工会参与企业经济工作、促进经济发展的一种传统载体,又是提高职工素质、推动企业进步、促进经济发展的重
心理契约近年来已经成为人力资源管理领域研究和探讨的热点。本文将心理契约的理论与方法引入到工商行政管理系统,阐述了实施心理契约管理的重要意义,并从工商行政管理系统心
<正>中国未来的改革方向要向历史中去寻找在30多年的高歌猛进之后,中国经济和社会发展再次走入了一个十字路口,各种理论纷争、利益冲突及选择之艰难扑朔迷离。为了回答这个问