论文部分内容阅读
计算机视觉一直都是非常火热的学科,情绪感知一直是该学科研究的重点,而解决情绪感知问题就是解决情绪识别问题。随着深度学习的发展,越来越多先进的理论和技术相继提出,也使得人脸的情绪识别效果越来越明显。目前,人脸情绪识别的方向主要有基于静态图片的学习预测和基于视频流的学习预测。本文是基于视频流的情绪识别,视频流对于静态图片来说数据量更大,影响因素更多,所以采用深度学习的方法进行学习预测能有效的完成任务。本论文通过搭建一个深度学习模型,再通过训练好的模型搭建一个基于Web服务的视频流情绪识别系统。本文主要内容包括:(1)介绍本论文所采用的深度学习网络,论述相关的深度学习模型理论知识,从BP算法到神经网络,再由基本的神经网络到本论文采用的卷积神经网络、循环神经网络以及3D卷积神经网络,延伸讲解LSTM网络。分析它们的应用场景与不足,介绍卷积神经网络的下采样层、核函数,LSTM的变种模型和记忆细胞等相关重要概念。(2)本论文通过音频分离技术将视频流分离出图片帧序列和音频信息。针对图片帧序列通过人脸检测模块和人脸过滤模块得到有效的面部图片,再提取出有效数据,一方面采用卷积神经网络与LSTM构建一个网络学习模型,另一方面构建单个3D卷积神经网络模型,并在原来的网络基础上对人脸检测与音频的情绪识别进行了改进。最终将改进后的模型用于训练,训练好后在AFEW(Acted Facial Expressions In The Wild)数据库上进行实验,获得了58.91%的准确率。(3)最后,通过上述的模型搭建一个基于Web服务的视频流情绪检测系统。介绍系统的流程与相关模块的功能,包括文件的上传、音频分离、人脸检测等后端功能模块。提供HTML页面用于用户访问与检测结果的显示,介绍不同页面的作用。在后台中利用消息队列实现消息订阅功能,介绍订阅结构,并利用该功能为系统提供异步处理能力与一定的解耦能力。为系统提供速度调节、优先队列机制,提高系统的处理效率。对于该系统进行基于视频流的情绪识别的测验,包括现有的数据库和摄像头采集后的数据,都能满足要求的准确率。