论文部分内容阅读
人脸表情包含着丰富的情感信息,在人们的日常交流中占据着重要地位。随着计算机技术的快速发展,人们迫切希望计算机能够确切地模拟人类的行为模式,进而提升现有智能化体验。人脸表情识别技术作为计算机辨别人类表情状态的重要手段具有广阔的应用前景,被广泛应用于个性化推荐、远程教育、医学辅助、驾驶辅助、智慧城市、人机交互等领域。近年来,随着人工智能的发展,表情识别成为了计算机视觉领域的研究热点,吸引了大量研究学者的关注。利用深度学习中的卷积神经网络,识别静态图像的人脸表情是本文的主要研究内容,具体工作如下:1.针对传统机器学习方法中,过多地对原始图像进行预处理、图像增强,以及数据样本不足对表情识别的影响,文中保留了FER2013数据集和CK+数据集的原始信息,并对训练集中每张表情图像进行四角和中心裁剪,然后再水平翻转操作达到扩充数据样本的目的。2.针对传统机器学习中人工提取特征复杂度高,以及浅层卷积神经网络对于表情特征提取不充分的问题,排除太深的网络易造成计算资源浪费及过分提取表情特征的嫌疑,选择了VGGNet-19GP和ResNet网络。VGGNet-19GP来自于对VGGNet-19的改进,对最后一层卷积学到的深度描述子分别进行最大和平均的全局池化,然后分别做L2规范化,将两支得到的特征级联经过一个全连接层达到分类的目的。实验过程中两网络均使用了ReLU激活函数和随机梯度下降训练算法,以及加入了Dropout机制防止过拟合策略。最终VGGNet-19GP和ResNet-18网络在FER2013数据集上分别实现了71.848%和72.271%的平均准确率,在CK+数据集上实现了91.107%和92.845%的平均准确率。3.针对单卷积神经网络进行表情识别过程中特征提取单一会造成最终表情分类准确率不高的问题,借鉴集成学习的思想,提出了一种基于集成卷积神经网络的面部表情识别新方法。方法对VGGNet-19GP模型和ResNet-18模型进行集成,构建了集成网络EnsembleNet模型。该模型利用了两个网络的输出,保存了双网络FC层之后的7类表情能量值的特征向量进行级联成新的特征向量,通过获取新向量中的最大值返回其索引作为表情的预测值完成对表情的分类。通过实验研究发现采用加权平均的集成策略,对VGGNet-19GP和ResNet-18分别设置0.47和0.53的权值时实验效果最好。在FER2013和CK+数据集上分别获得了73.854%和97.611%的平均准确率,达到了分类准确度高、泛化能力强的研究目的。