论文部分内容阅读
随着人机交互技术的发展及需求的日益提升,情感计算已成为当前自然人机交互和人工智能领域研究的热点。语音是人类交流最直接、最自然的途径,同时也是人机交互的重要方式。语音信号在传达语义信息的同时,还传递了说话人的情感状态信息。情感交流是人类交流活动中不可缺失的重要内容。因此,作为情感计算研究的一个重要方向,语音情感信息处理备受研究人员的重视。其中语音情感识别是计算机理解人类情感的关键,具有重要的研究意义。本文以建立语音情感识别应用系统为目标,深入研究了情感特征分析与提取、情感特征选择、语音情感建模与识别等关键问题,主要研究工作具体如下:(1)语音信号前端分析与处理。详细介绍了基于语音信号时域波形的分析和处理方法,主要包括语音信号的预处理、时域分析以及基于能量和过零率相结合的端点检测算法原理和检测流程等内容。(2)情感特征分析与提取。建立了一个包含愉悦、平静和厌烦三类情感的情感语音库,用以解决情感特征分析与提取等语音情感识别研究所需的语料问题;针对上述三类情感展开了情感特征分析和提取的研究工作,观察和分析了能量、基频、共振峰等特征在不同情感状态下的变化规律,并根据统计分析结果选择和提取具有情感辨别力的全局统计情感特征。(3)情感特征选择。为了在不显著降低系统识别率的条件下,尽可能的提升系统识别速率,提出了基于情感全集(包含全部三种情感)和基于情感对(两种情感,共三对)的两种特征选择方案;利用基于支持向量机(SVM)错误率的顺序前向和顺序后向算法进行了多次特征选择实验,得到了情感全集与情感对方案下各自的最优特征向量;最后在相同的情感测试集上对由不同方案下的最优特征向量训练的SVM情感识别模型的进行了识别性能对比实验,实验结果表明,以情感对方案选择的最优特征向量训练的SVM模型对于不同情感对的分类能力更强、识别速率更快。(4)语音情感识别应用系统的设计与实现。设计并实现了一套适用于医疗手术环境下的语音情感识别系统,作为子模块嵌入到已开发的微创手术语音控制机器人系统中,主要用于解决两个问题:一是在训练阶段,辅助医生进行训练,使其尽可能保持平静进行训练,提升训练效果;二是在识别阶段,对医生发出的控制命令进行情感辅助决策,避免因医生的情绪波动引起的误操作,提高手术的成功率。