论文部分内容阅读
情感识别和分类在学术领域已经有很深入的研究,也取得了一些前沿的成果。但是,无论是在二维图像方面,三维人脸表情方面,还是语音识别领域,目前可以达到的情感识别率都偏低。为此,本论文采用近年来性能突出的深度学习模型,并加入本文进行的改进和创新,从视觉、语音以及脑电波三个方面进行了研究与探讨,并将改进的模型与NAO仿人机器人相结合进行实验研究,使得NAO仿人机器人具备识别人类情感的功能。本文首先在视觉领域,采用Capsule Net和反卷积重构图像误差的方法,训练了经过数据增强的人脸表情数据集Cohn-Kanade Dataset(CK+),得到了表情识别模型。利用该模型可以分类七种情感,分别是生气、厌恶、平静、高兴、恐惧、悲伤、惊讶,并把该模型和其他著名的深度学习模型进行对比实验,可以得出本文采用的模型在准确率和收敛速度上有着最好的表现。其次,在语音领域,本文采用双向循环神经网络Bi-LSTM(Bi-directional Long Short-Term Memory),并在其后加入Attention Model(AM)对提取出的较为重要突出的特征给予更多关注。之后使用Dropout机制降低网络复杂度。本文采用的实验对德国柏林语音情感数据集EMO-DB进行了训练和测试,一共分类七种情感。最后与相关论文中的结果进行对比,发现本文采用的模型得到的识别准确率的稳定性和最高准确率都更胜一筹。接着,利用具有8电极通道的脑电极帽采集关于人类情感的脑电图(Electroencephalogram,EEG)进行情感识别实验研究。在实验过程中把脑电极帽戴在受试人员的头部,脑电帽和电脑端的脑电波检测软件通过脑机接口连接之后,就可以测出受试人员在不同情感状态时候的脑电波数据,然后再利用机器学习模型对采集的数据进行情感分类。最后,在完成上述三类情感研究实验后,将训练模型和NAO仿人机器人进行对接,实现了一种简单的仿人机器人和人类的情感交互过程,取得了良好的效果。