情感语音信号特征分析与识别

来源 :东南大学 | 被引量 : 0次 | 上传用户:gz200009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在人与人的交流中,识别对方的情感状态是情感智能的一个重要内容。情感智能是人类智能的一个方面,对人的社会交往起着非常重要的作用。在传统的语音信号处理过程中,计算机没有被赋予理解操作者的情绪和心情的能力,只能够理解语音信号的表层符号信息,而不能理解隐层情感信息,不能实现类似人类交流之间的情感互动。语音情感信号处理就是要赋予计算机类似人一样的观察、理解语音信号中的情感信息,表达各种情感的能力。本文从认知、心理、生理、特征获取、模式识别等角度对情感语音识别进行了研究,取得了一些研究成果。 本文首先从心理生理学的角度回顾了情绪理论的研究发展历程,给出了按照生理心理学的研究成果的不同的情绪分类方法,作为情绪模式识别的分类依据。 针对情感语音研究中所面临的一些问题,对目前使用的一些情感语音数据库进行了分析,指出了不同类型的数据库各自的优点和缺点。在列举目前所存在的所有数据库的同时,从语音情感识别的角度对数据库的建立提山了一些观点,并将其作为我们创建中文情感语音数据库的基础。基于本文的分析观点进行中文情感语音数据库的建设,我们得到了包括2268个单词样本,2916个短句样本,280个长时语句样本的中规模中文情感语音数据库。 利用模糊熵的理论,本文提出了一种特征参数有效性度量手段。先得到特征参数相对于情感的模糊关系矩阵,然后将模糊综合判决同利用模糊熵的参数有效性度量相结合,对情感语句进行识别。实验结果表明,结合参数有效性度量的模糊综合判决方法能较大提高语音信号的情感识别率,并高于常用的主元分析方法。 汉语音节的韵律特征对情感表达起着非常重要的作用。本文提取情感语句中各元音区间的声学参数组成时序结构特征。由于元音数目的不同,对不同长短的语句的时序结构特征进行了规整。采用最长的句子为基准,将较短的句子的时序结构与基准对齐而进行规整,并提出了3种不同的规整方法。传统的QDF方法中,计算协方差矩阵所必要的乘法次数随着参数的维数增加,会导致计算量和内存所占容量变得很大。同时,协方差矩阵的推定误差将增大,从而降低判别的性能。因此,本文提出了一种新的修正二次判别函数(MQDF)。研究结果表明,利用了时序结构特征与采用修正二次函数相结合的方法,可以较高的提高语音情感识别效率。 利用支持向量机,本文对语音情感识别的二分模式识别和多模式识别进行了研究。在二分模式的情感语音识别实验中,比较了线性映射和高斯核函数的映射方法。结果表明非线性的映射能够改善情感的分类效果。在多模式情感实验中,选用“One-Against-All”的SVM网络进行.4类语音情感的识别。选择具有连续输出的函数作为软判决,然后选择具有最大输出值的类别作为最终的输出。将多模式的SVM判决方法同PCA方法进行比较,结果表明使用SVM对语音情感进行识别效率大大高于其他识别方法。 本文研究了利用基音的统计模型信息来进行语音情感的识别方法。提出一种变窗口的ParZen窗法估计方法对基音的统计模型进行估计,防止了分布模型在高频部分的抖动和低频部分的延伸。通过采用巴氏距离(Bhattacharyya Distance)来衡量不同的分布模型之间的距离,并将这个距离作为模式识别的参数之一。利用KNN方法对情感语料进行了识别实验,结果表明基音的统计模型参数的引入能够较明显的提高情感语基音和共振峰的衍生形式经常被用来作为特征参数进行语音信号的情感识别。这些参数和人的生理构造有着密切的关系,不同的性别上之间具有差异。为消除这些性别差异,本文提出了基于性别分离的特征参数规整方法。利用基于模糊熵的有效性度量方法对情感特征参数的有效性进行度量,表明消除性别差异使得特征参数具有更高的有效性。在识别过程中,首先利用男女性别的基音分布规律的差异进行性别分离,然后再对测试样本利用KNN方法进行情感识别。实验结果表明,基于传统的基音和共振峰参数的情感识别正确率为72.4﹪,而利用本文提出的修正方法得到的参数进行识别,情感识别正确率可以达到78.6﹪。
其他文献
山东能源淄博矿业集团经营范围涉及煤炭、医疗健康、建材、新材料等多个产业,是一个大型的煤矿企业,其需求物资品种繁杂,数量巨大,占有大量资金。高效、科学的物资计划管理能给企
码分多址(CDMA)通信方式以其特有的抗干扰性、多址能力和多径分集能力,而成为第三代移动通信系统的主要技术。其中Rake接收技术是CDMA系统中的一项关键技术。随着通信技术的
学位
TD-LTE是时分双工(TDD,Time Division Duplex)模式的LTE系统,是我国自主设计开发的TD-SCDMA的后续演进技术与标准。多天线技术是TD-LTE系统的关键技术之一,其包括发射分集、空分复
现代工业自动化过程日益复杂,自动化和智能化程度也越来越高,因此确保系统安全、可靠运行的诊断和维护技术显得尤为重要,随着计算机网络技术和通信技术的发展,特别是Internet
本文在论述通信信号调制方式识别发展状况、应用价值的基础上,提出了一种基于参数统计的识别新方法,设计了模拟、数字、综合三类调制识别器。采用计算机仿真产生的调制信号作
肤色检测技术在新的人机接口技术、人脸和手势识别与跟踪、Web图像内容过滤、数据库或因特网中的人物检索、视频监控、皮肤疾病诊断、化妆品效果分析等方面有广泛应用。稳健
在图像形成、传输、获取过程中,由于成像设备性能、传输信道干扰等因素的影响,人们往往只能获得低质量图像。这种图像质量下降的过程,称之为图像退化。图像复原是指利用图像
从视频序列中分割出视频对象对于第二代编码标准而言是一个非常重要的步骤,是基于内容的视频应用的基础,这些应用包括基于内容的视频检索、面向对象的视频压缩和编辑、智能人
本文首先介绍了m序列的特性和已调伪码解调的方法。然后,主要分三大部分介绍了针对m序列的识别、重构、频率检测和系统的工程实现等问题。论文所涉及的内容是“十五”某重点