论文部分内容阅读
情感在人机交互中扮演着重要的角色,语音作为人们日常生活中使用最广泛的交流方式之一,也是传递情感的主要媒介。全球老龄化、少子化、“空巢老人”问题的加剧,为服务机器人的发展提供了广阔的市场前景。新一代人机交互技术的逐渐深入,促使语音情感识别在服务机器人中的应用成为研究的热点。本文围绕语音情感识别在服务机器人中的应用开展了以下三个方面的工作:(1)在传统机器学习领域,提出了基于Zernike的语音情感特征提取算法ZMFCC。语音情感识别的精度与提取的语音情感特征密切相关。MFCC作为语音信号的谱特征之一,充分考虑了人耳的听觉感知特性,因此在以语音为研究对象的相关领域得到广泛的应用。本文对MFCC特征提取算法进行改进,提出了基于Zernike矩的梅尔频率倒谱系数(ZMFCC)语音情感特征提取算法,并结合LIBSVM分类器,实现了CASIA中文情感语料库中六种情感的分类和识别。实验证明,本文提出的算法优于MFCC和HuWSF等基于谱特征的语音情感特征提取方法。(2)在深度学习领域,提出了基于卷积神经网络和随机森林相结合的语音情感识别模型CNN-RF。深度学习可以从原始数据中自动学习、提取高层次的特征。本文针对中文语音数据的情感识别,选用卷积神经网络作为特征提取器,随机森林作为分类器,提出了基于卷积神经网络和随机森林相结合的网络模型CNN-RF。首先将语音信号转化为语谱图并进行归一化,输入到卷积神经网络,提取出语音情感特征,然后采用随机森林算法对得到的语音情感特征进行分类。该模型在中科院的语音情感数据库CASIA上进行训练和测试,实验证明CNN-RF模型优于传统的CNN模型。(3)改进了NAO机器人指令盒,将语音情感识别模型成功应用于NAO服务机器人平台。为了使NAO录制的语音与CASIA中的语音格式保持一致,对NAO自带的Record Sound指令盒进行了改进,机器人通过语音情感识别了解人的喜、怒、哀、乐,实现了更加智能的人机交互方式。