基于谱图及统计特征的语音情感识别研究

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:wanglt111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音作为人类生活交流的载体,贯穿于每一个人的生活当中。伴随着人工智能的迅速发展,人们对于信息交流的渴望不止体现在语义的表达,更体现于机器对人类情感的理解。这种理解在人机交互过程中不再只是单纯地依靠机器机械地回应,而是有感知地对接收一段语音信号后做出伴有情感的反馈。因此,对于语音情感的识别是提升机器智能的重要因素,在人机交互领域的重要性不言而喻。为了提升语音情感识别的精度,增强人机交互的和谐,更好地建立人类与机器之间情感的连接,本文主要围绕以下两个方面进行研究:(1)为解决小数据集上存在深度学习过拟合且识别精度低的问题,提出一种基于语音和图像双重增强的卷积神经网络(Convolutional Neural Networks,CNN)与门控循环单元(Gated Recurrent Unit,GRU)网络结合的深度学习模型。该方法将原始音频通过上移和下移操作进行语音增强,将增强后的语音信号映射到Mel尺度并生成Mel功率谱图,然后对其做旋转、切角、偏移等图像增强操作,并结合卷积神经网络对频域特征的识别能力和门控循环单元网络对时序信息的特性获取能力构成融合模型CGRU,该模型通过自动学习深度谱特征并进行情感识别。结果表明,利用谱图特征在CGRU方法上的情感识别精度超过传统手工特征eGeMAPS在该数据库上的识别效果,提出的方法在语音情感识别任务上具备竞争力。另外,在相同的训练参数下,CGRU要比CLSTM具有更低的时间复杂度。(2)为从多重维度获取情感信息,进一步提升语音情感识别精度,弥补单一特征表征能力不足的问题,提出一种基于双通道特征的AtBiGRU模型。该方法对语音信号通过双重通道分别进行深度谱图特征和HSFs(High level Statistics Functions)特征提取,利用深层卷积的表征能力,并结合传统声学特征的经验与知识,构造包含局部和全局情感信息的融合特征。该融合特征通过Attention机制获取特征维度的权重值,经过Attention计算的融合特征作为双向GRU模型的输入,从时间方向捕捉语音信号的时域特征。结果显示经过前向和后向学习的AtBiGRU网络在IEMOCAP双通道特征上的情感识别率较融合之前的特征相比具有一定程度的提升。实验验证了不同的卷积特征对识别任务的影响,结果发现VGG16特征较VGG19特征而言更适合本任务的特征表示。实验搭建了不同架构的网络模型,结果表明双通道特征在双向循环神经网络(Bidirectional Recurrent Neural Network,BiRNN)模型上的识别精度优于单向循环网络(Recurrent Neural Network,RNN)的识别结果。
其他文献
分子石墨烯可以看成二维石墨烯的片段部分,由于其有着特殊的光学和自组装性质,在有机光电材料领域有着潜在的应用,如场效应晶体管,发光二极管,太阳能电池等。另外,噻吩及其聚
随着电子信息技术的不断发展,信号的复杂性大幅提升,有用信息经常被淹没在很强的背景噪声中,提取有用信息变的十分困难。传统的信号检测分析方法,如傅里叶分析、时频分析、包
当前,在我国新课程改革的背景下,高效课堂改革在各省市中小学校中轰轰烈烈地开展着。在这场课程改革中,各种形式的高效课堂教学模式应运而生,其中较为有名的是:昌乐二中“271
随着互联网技术的飞速发展和逐渐成熟,互联网技术极大地改善了人们的生活方式。现在人们足不出户也能通过电子商务平台购买世界各地的东西,在购买商品的同时,也可以对所购买
尼玛盆地是位于青藏高原腹部的新生代陆相盆地,与之毗邻的伦坡拉盆地是目前西藏唯一获得工业油流的沉积盆地。近年来在尼玛盆地先后发现沥青油苗表明它是一个含油气盆地,而且
中国移动设备的普及和网络技术的发展,网络英语学习资源的丰富,为英语移动学习创造了良好的条件。英语是是国家教育部规定中等职业学校学生的必修基础课之一。中职生英语基础
心境恶劣障碍近年来受到人们越来越多的关注,心境恶劣障碍与抑郁症关联密切。心境恶劣障碍患者中有60%会遭受抑郁发作,心境恶劣障碍的存在增加了抑郁症患病风险,故而开展心境
最近几年,随着智能手机的普及以及4G、5G等网络通信技术的不断成熟商用,各种短视频、视频直播平台迅速兴起。与此同时,对海量的视频数据的识别、理解与检索也逐渐成为迫切需
Keggin结构多金属氧酸盐是一种优良的催化剂,由于其兼具酸性和氧化还原性,故而常被用作双功能型催化剂。在许多有机反应中,多金属氧酸盐显示出比传统催化剂更好的选择性和活
近年来,有关图像处理领域的视频修复方面的研究正不断深入发展和应用。相比于单一的静态图像修复,视频包含更多的结构、纹理和运动特征信息,也是目标信息保存最直接、最有效