论文部分内容阅读
随着人机交互技术的发展,人机接口的研究已经逐渐从机械化时代跨入多媒体用户界面时代。作为智能人机交互的关键技术之一,语音情感分析与识别已经成为一个研究热点。各领域研究者十分关注如何从语音中自动识别说话人的情感状态,并使计算机作出更有针对性和更人性化的响应。本文首先概述了语音情感识别的研究意义以及文中的主要研究内容,然后回顾了目前语音情感研究中涉及的多个关键问题,包括情感的分类、情感语料库概况、语音信号的声学特征、特征降维、分类算法以及基于半监督学习的语音情感分类。本文提出了多种特征选择和特征抽取模型。基于类集和类对特征选择相融合的语音情感识别是一种新型的模型结构,它在关注每一对类别区分度的同时,兼顾样本数据的全局分布,因而同时引入类集和类对特征选择方式。该模型结构适用于多种分类算法,而且能有效地提高系统的识别性能。基于特征投影矩阵的特征选择算法利用特征抽取算法中的投影矩阵,衡量各个初始声学特征的重要性,据此进行特征子集的选择。实验结果表明,相比于单纯使用投影矩阵进行映射变换的特征抽取方法,该特征选择算法更具优势。基于多层次特征抽取的语音情感识别通过对数据的分析,针对不同性别、不同情感类别的语料,选择多样化的降维算法进行处理。这种思想可以推广到其他语料库上,通过构建合适的基于多层次降维的识别系统,提高系统整体的识别效果。基于流形学习的增强型Lipschitz嵌入算法则是一种非线性降维算法,它通过测地距离的计算,将高维特征向量映射到低维子空间中。该算法在实验室受控环境下的特定人和非特定人语音情感识别、高斯白噪声和正弦噪声情况下的特定人语音情感识别中,显著地提高了识别准确率。在传统的语音情感识别系统中,各个声学特征通常是以分量的形式简单地组成特征向量,作为分类器的数据输入。基于协方差描述子和黎曼流形的语音情感识别系统考虑了不同声学特征之间的关联性,实验表明该关联性能够反映语音的情感信息,而且基于此关联性所建立的识别系统稳定性高,抗噪能力强。在只有少量已标记样本和大量未标记样本的情况下,本文提出增强型协同训练算法,建立起基于半监督学习的分类模型。它通过引入类别预测一致性的限制,改进标准协同训练算法,减少了分类噪音的产生,并提高了分类器的性能。虑到语音情感研究的实用性,使用AdaBoost+C4.5分类模型对语音信号进行情感分析,实现了完全实时的情感识别,并将其应用于实时情感语音驱动的人脸动画生成系统。