论文部分内容阅读
情绪感知就是对人的情绪进行识别,是人工智能研究的重要方面。为了提高人机交互体验,让机器更好地理解人的情感,学术界从人的声音,表情,动作等方面展开了研究,其中从语音角度进行的情绪感知是本文的主要内容。深度学习是人工智能领域当前最热的领域,在语音识别,图像识别,自然语言处理方面都取得了显著的成果。而深度学习领域的飞速发展,也产生了一些比较有效的模型方法,如深度信念网络DBN,卷积神经网络CNN,循环神经网络RNN等等,如何利用深度学习方法在语音情绪感知方面提高情绪感知的准确率是一个新的研究问题。本文正是针对上述问题,以如何应用深度学习方法提高情绪感知准确率为研究对象,在对传统语音情绪感知的研究理论进行归纳总结的基础上,同时对深度学习领域的各种模型方法进行详尽的理论分析,使用tensorflow平台建立深度学习模型并且设计基于C/S的iOS移动端的语音情绪感知系统。主要工作如下:1.本文研究了情绪感知的传统方法,分析了传统情绪识别方法优缺点。传统情绪感知传统方法主要是使用手工特征提取,人工种类很多,最常用的是MFCC梅尔倒谱系数,但从语音识别领域近年来的成果来看,效果不如将音频转化为语谱图传入神经网络进行自动特征学习得到的训练结果好,本文在语音情绪感知中也引入了将语音转为语谱图输入,进行自动特征学习的方式。2.本文研究分析了深度学习的主流模型,分析了当前已有文著采用的深度学习方法,进一步提出XNN-SVM模型在语音情绪感知领域进行应用。笔者基于Tensorflow平台使用XNN-SVM模型建立了系统原型,并在此系统原型上进行若干对比实验,证明了模型的改进效果。3.本文设计实现一个基于C/S模式的双端识别语音情绪感知系统,既可以通过手机进行本地识别,同时可以通过服务器进行识别反馈,帮助改进模型。并且采集了300条语音情感数据进行系统测试,验证了该模型的工程实用性。