基于深度学习的语音情感特征提取及处理算法研究

来源 :河南工业大学 | 被引量 : 2次 | 上传用户:feboy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语言中包含了丰富的情感信息,在过去几十年中,语音情感识别的相关研究取得了巨大的进步。近年来,深度学习在各个领域都取得了巨大成功。与传统特征相比,深度学习特征具有更多的内在信息,然而如何合理的设计相关算法以及模型结构仍需要探索和研究,本文研究了基于深度学习的语音情感特征提取及处理算法,主要内容如下:1.主要介绍了语音情感识别的相关研究意义和背景,国内外研究现状以及存在的问题,并详细介绍了本文的主要工作以及组织结构。2.主要研究了语音情感识别的系统流程,从情感描述模型、语音情感数据库、情感特征提取和情感分类器四个部分分别进行了研究。3.提出了一种基于卷积神经网络(CNN)特征表征的语音情感识别模型。该卷积模型以LeNet-5模型为基础,增加了一层卷积层和池化层,并将二维卷积核改为一维卷积核,将一维特征预处理后,输送进该卷积网络模型中,对特征变换表征,最后利用SoftMax分类器实现情感分类。在公开数据库上的识别结果验证了网络模型的有效性。4.单一网络模型对特征的学习效果有限,为了提高模型对情感特征的学习能力,提出了一种基于卷积神经网络和简单递归单元(SRU)的串行网络模型。首先提取分段的三维谱图特征作为模型的输入,并使用预训练的CNN模块对这些特征进行学习,然后利用SRU模块对这些分段特征进行融合,最后使用分类器将情感进行分类。在Emo-db和CASIA数据库上的实验结果表明,该模型能够有效地识别语音中所包含的情感信息。5.由于模型之间串行的连接方式可能导致网络进行特征学习的过程中丢失重要的情感信息,为此,提出了一种的并行网络模型结构,分别由长短期记忆网络(LSTM)模块和CNN模块组成。首先,提取出每段语音数据中的帧级特征,将其送入LSTM模块中逐帧学习,同时,提取每段语音数据的谱图特征,并求其一阶导数和二阶导数,组成三维谱图特征,在CNN模块中对这些特征进行学习,然后将两个模块中所提取的特征整合并进行批归一化处理,最后使用SoftMax分类器对情感进行分类,在Emo-db和CASIA数据库上的实验结果表明了所提方法的优越性。
其他文献
高熵合金,是由5种或5种以上元素构成,且每种元素的原子百分比在5%-35%的范围内。因为高熵效应,高熵合金通常形成一种或多种具有简单结构的固溶体,因此其性能也不同于传统合金
吉林省最早的蒙文期刊《蒙话报》是在西方帝国主义的侵略和清末实行“新政”时期,由“吉林省调查局”后改为“吉林蒙务处”在1908年创刊,主要刊登蒙古事务的公务性专刊。该刊
食品风味是食品最重要的品质指标之一,直接影响着人们对食品的选择,而包装材料对食品风味的吸附会严重影响食品的感官品质。随着制罐新材料覆膜铁在包装领域开始应用,其对所
随着通信技术的发展和人们物质生活水平的提高,蜂窝网络中用户的数目不断增多,导致同频干扰的现象日渐严重,系统更加拥挤。5G商用化的进程中,一些新的技术进入人们视野。在无
电化学技术与荧光检测技术因其操作方便、耗费较少、响应迅速等特点被应用在各个方面,尤其在环境监测和药物分析等领域应用非常广泛。本文即是采用这两种优良的分析手段,分别
在过去的几十年中,发光材料的突破性创新为科学技术开辟了新的令人兴奋的途径。聚集诱导发光(AIE)代表了这样的创新之一。聚集诱导发光(AIE)是一种异常现象,即某些有机发光体从溶
无线传感器网络(WSN)作为IoT的基础设施,连接物理世界和互联网世界。随着物联网和智慧城市的发展,传感器节点也越来越普及。传统的无线传感器网络结构由于受到传感器资源限制
如今,诸如交互式游戏,增强现实,面部识别和图像/视频处理之类的计算密集型应用在移动设备上变得流行。移动应用的快速增长使无线网络和云的基础设施面临着严格的挑战,例如用
第五代移动通信(5th Generation Mobile Networks,5G)是集成了LTE、Wi-Fi和其他无线接入技术(Radio Access Technologies,RATs)的异构网络融合架构,它使请求不同类型业务的用
DNA量子点(DNA QDs)、半导体聚合物纳米颗粒(Pdots)因具有良好的发光性能及光学稳定性,极佳的生物相容性和低细胞毒性,使它们在细胞成像,光电化学,pH值、温度、离子及有关生物活