论文部分内容阅读
语音情感识别是人工智能领域的一个重要分支,是一项通过处理分析语音信号来识别说话人情感状态的技术,在自然人机交互、疾病诊断和监控、疲劳检测、公共安全等领域有着日趋广泛的应用。近年来,随着心理学、生理学、神经科学及计算机技术的发展,语音情感识别技术取得了显著的进步,但是由于情感的复杂性和情感理论基础更新的滞后性,当前的研究水平距离成熟的技术应用有着很大的差距。结合当前语音情感识别研究状况与实际需要,本文分别从特征提取、情感描述模型升级和识别模型构建等不同层面逐一展开语音情感识别研究,并提出了一系列的解决方法,主要研究内容包括:(1)定量地给出了不同情感状态的情感韵律粒度,并提出了两种基于长短时特征融合的语音情感分类方法。本文在自建离散情感语料库的基础之上,首先对包括韵律学特征和声音质量特征在内的语音情感特征在不同情感状态(高兴、愤怒、悲伤、惊奇)上的变化规律进行了定性分析,其次对特征提取时长与情感区分能力之间的关联模式进行了定量分析,并确定了最佳的语音情感特征提取时长作为情感韵律粒度的衡量。基于以上的分析结果,及人类听辨语音时所表现出的连续性和渐进性,本文分别提出了一种同时具有短时反馈机制和长时控制机制的全局控制Elman神经网络模型,和一种基于情感韵律差异建模的情感韵律Elman网络,实现了语音情感分类过程中对长短时声学特征的有效融合。同分别使用短时和长时特征的情形相比,特征融合后的系统识别性能有了不同程度的提升。(2)对传统语音情感识别使用的情感描述模型进行了更新,开展了基于维度情感描述模型的语音情感识别研究。并且考虑到国内在维度语音情感识别研究上的空白,本文建立了并发布了一个完全源于自然语音和自发情感的汉语维度情感语料库MREC,为普通话维度情感识别研究奠定了扎实的数据基础,填补了汉语维度情感语料库的空白。另外还提炼总结了日常生活场景下的维度情感语料库的录制方法、标注方法及其测评方法。(3)提出了基于回归预测主动学习策略的维度语音情感识别方法。针对维度语音情感识别领域中的语料规模大、情感打分难度大、标注工作繁重的问题,本文提出运用主动学习思想来指导维度情感的标注和识别模型的学习。为此,本文设计了包括基于委员会投票、基于最近边界置信度和基于差异性加权置信度在内的三种回归预测主动学习算法,用于对候选语料的信息度进行有效地估计。实验证实,通过运用上述三种主动学习算法,本文有效地实现了对高质量训练语料的选择,并相应地取得了提高模型训练效率和系统情感识别性能等多方面成效。该研究是主动学习思想同维度语音情感识别的首次融合。(4)提出了基于Kullback-Leibler测度的情感顺序预测损失估计方法和基于顺序敏感神经网络的维度语音情感识别方法。考虑到语音样本间的情感变化趋势在判断说话人的意图、观点和态度时所发挥的重要作用,本文提出在维度语音情感识别的建模过程中同时考虑情感数值预测和样本间情感强弱顺序的预测。为此,本文将维度语音情感识别任务建模为一种改进的回归预测模型——顺序敏感的神经网络模型:首先将解决问题的关键转化为,由数值损失和顺序损失两部分组成的预测损失函数的最小化过程,继而使用神经网络学习算法实现预测损失的最小化。其中预测损失中的顺序损失部分是对由预测造成的样本间情感强弱顺序错误程度的定义。本文提出使用概率模型对样本间的情感强弱排序情况进行形式化描述,然后使用Kullback-Leibler概率分布距离对预测造成顺序损失进行量化。该模型在维度语音情感识别的任务中能够表现出优异于目前被广泛使用的支持向量回归预测器的情感强弱顺序预测能力。该研究为人-机交互系统正确判断用户情感变化,从而做出正确的交互决策提供了更加可靠的技术保障。(5)提出了基于分裂矢量量化的分布式语音情感识别模型。分布式语音情感识别技术是语音情感识别得以推广的必要环节,为此本文以“客户端低成本、数据传输低带宽、情感识别高性能”为原则,提出了一种分布于客户端-服务器端的语音情感识别模型:将语音采集、特征提取和压缩模块放置于客户端,将特征解压缩和情感识别模块放置于远程服务器端,使用分裂矢量量化算法实现声学特征的压缩。本文对自然情感语音在该分布式模型下的情感识别性能进行了详细地考察与分析,包括对码本数量、码本尺寸等关键参数的设置对数据传输带宽需求和情感识别性能的影响的分析。结果显示,该方法的应用能够在保证数十倍的压缩比的同时,取得与单机版识别系统相当的情感识别性能。该研究为推广语音情感识别的互联网应用,提供了有效的技术支持。本文研究工作为当今语音情感识别领域面临的若干关键技术问题提出了崭新而切实有效的解决方案,为今后的语音情感识别研究奠定了良好的基础。