基于多粒度特征融合的维度语音情感识别方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lomon521mutou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
源于人工智能领域语音处理技术的飞速发展,人们希望可以和机器进行更自然、贴切的交流。语音情感识别是继语音识别之后,人机交互中的又一热点问题,得到了研究者们广泛的关注。近年来,随着心理学、生理学、神经科学、认知科学和计算机科学的发展,探究符合人类情感表达相关联的新特征,是当前研究领域内十分重要的研究课题。但目前在维度语音情感识别方面的研究较少,而且没有公开认可的维度语音情感特征集和高效的分类方法。在维度语音情感特征集的构建方面,本文提取了维度语音情感识别常用的韵律学特征、音质特征和基于谱的特征,另外根据Teager等人实验发现的语音非线性产生模型,结合梅尔听觉心理认知规律,我们提取了非线性Teager_Mel特征。这样提取的特征既可以考虑到语音产生的过程的非线性,同时也综合了人耳听觉的心理效应,分别在公开的情感语料库DISEC和VAM进行了实验,结果表面基于Teager非线性理论提取的特征识别效果要优于在语音处理中常用的梅尔倒谱系数。在上面提取的维度语音情感特征集的基础了,我们对此特征集做了一系列的后处理。传统的维度语音情感识别系统都是采用全局统计特征,即将提取的全句的帧特征进行统计,然而这种划分的方式有可能造成韵律学细节信息的丢失,所以本文研究了更加合适的情感识别单元,在语段粒度上进行各种统计量的计算。同时我们考虑到人脑对情感认知处理的三阶段过程,即酝酿阶段、情感充分表达阶段和情感收尾阶段。将这种认知过程的起伏变化用数学上的高斯函数进行模型化,这样我们得到了窗特征。为了能从人脑处理语音情感信号的角度出发,同时考虑到语音的时序信息,本文提出了一个基于认知机理的回馈神经网络(CMRNN),并将CMRNN应用于维度语音情感识别。我们考虑到基于认知机理的反馈神经网络既可以综合短时帧上的情感特征,又可以融合长粒度的段统计特征和窗特征。与传统的语音情感识别系统相比,我们不仅探究了合适的情感表达时长,而且将短时帧特征和较长时的段特征和窗特特征融合体现在分类器的处理过程中,实现了时序信息对情感识别的补声道充作用。最后,我们用基于认知机理的回馈神经网络进行维度语音情感识别,在VAM维度语料库上进行了测试,在情感的三个维度,平均得到0.66相关性。同时,语段特征和情感认知窗特征在维度情感识别上有不同程度的提高,较之前的全局统计特征,在情感的效价维提高了16%,证明了网络的有效性。
其他文献
学位
随着互联网技术的不断发展,搜索引擎已经成为人们获取网络信息的主要工具。研究搜索引擎网页排序的目的是从众多搜索结果中将内容相关和权威的网页排在前面,帮助用户迅速定位
随着互联网的快速发展,网络应用中的协议技术研究也在迅速增加。计算机网络中的协议理解对维护网络安全具有重要的意义。但越来越多的网络协议属于私有协议,缺乏公开的规范文
本文是“室内人体异常行为识别报警系统”项目的一部分,该项目为针对室内环境的人体行为监控。旨在通过整合智能视频监控处理流程中的各大关键技术,选择适应于该特定环境的有
不确定数据是近年来在传感器网络(WSN)、无线射频识别(RFID)等领域中涌现出来的一类新数据,对不确定数据聚类分析已经成为数据挖掘领域研究的新热点。本文阐述了数据不确定性
随着网络学习资源的海量级增长,加之不同用户背景知识和兴趣爱好各异,信息需要不尽相同,传统的基于关键字匹配的信息检索技术无论从资源覆盖率、检索精度等诸多方面来看,都无
最近十年以来,移动互联网得到了快速的发展并产生了巨大的变革,也引发了各种移动设备的快速普及。同时移动设备上的各种应用也在不断的丰富和改变着我们的生活。在各类应用中
近年来,随着生物技术,尤其是高通量技术的发展,生物网络数据有了显著的增长,出现了很多的生物网络数据库,包括蛋白质反应网络,新陈代谢网络,基因调控网络,神经网络等,如何从这些浩瀚的
面向服务的体系结构(Service-Oriented Architecture, SOA)是一个组件模型,它的主要作用就是将应用程序的不同业务功能(即服务)通过服务之间定义良好的接口联系起来,然后通过
由于人们对信息安全的逐步重视,加解密技术一直是研究的热点。各种加密算法相继问世,但加解密算法的安全性与复杂性始终是两个不可调和的矛盾体,在加解密速度和安全性上无法