论文部分内容阅读
人脸表情识别是计算机视觉领域的一个重要且热门的研究课题。在实际应用中,由于人脸姿态、光照和遮挡等因素,导致计算机捕获到的人脸图片在人脸表观上可能存在巨大的差异,使得真实场景下的人脸表情识别仍然面临着诸多挑战。近年来兴起的深度学习技术在人工智能各个领域取得了巨大的成功,受到广大研究人员的青睐,大大地推动了计算机视觉各个领域的发展。因此,研究基于深度学习的人脸表情识别方法,是一项具有重要价值与现实意义的工作。本文的主要工作具体如下:(1)本文提出一种基于多任务卷积神经网络的人脸表情识别方法。传统的人脸表情识别方法通常将特征学习与分类器训练分开进行,这可能导致算法整体无法收敛到一个最优的情况。并且,在应用深度学习方法的时候,如果缺乏足够的训练数据和有效的监督信号,那么所训练的模型就会面临着过拟合的风险,导致模型的泛化能力严重降低。此外,在模型的训练过程中,很多容易分类的样本往往占去了训练集的大多数,使得那些少量的难以分类的样本没有得到充分的关注。基于以上观察,本文提出了一种基于多任务卷积神经网络的人脸表情识别方法。本文设计了一种多任务卷积神经网络,并且在网络中使用一种联合损失来同时学习所有表情的判别性特征,使得网络可以有效地挖掘各个表情之间的联系并且提取到有价值的信息。此外,本文还引入了两种动态损失权重,帮助网络在训练中可以更好地关注到难分类的样本与表情任务。该方法在CK+数据集上取得了99.03%的准确率;在Oulu-CASIA数据集上取得了86.25%的准确率;在更加具有挑战性的MMI数据集上,取得了82.34%的准确率。(2)本文提出一种基于生成式对抗网络的人脸表情识别方法。尽管目前流行的深度学习技术在图像识别领域上取得了傲人的成绩,但由于深度学习是一项大数据驱动的技术,并且目前公开的人脸表情数据集通常只包含少量的标签数据,直接将深度学习应用到人脸表情识别上可能会引发诸多问题。此外,人工标注人脸表情图片成本昂贵,现有工作尝试同时利用多个数据集来训练目标模型,但是由于各个数据集之间存在着数据偏差,使得模型可能出现欠拟合,导致模型的性能降低。为了解决上述问题,本文提出了一种基于生成式对抗网络的人脸表情识别方法。本文设计了一种表情合成网络,使用该网络合成额外的人脸表情图片来扩增模型的训练集。为了使表情识别网络更好地利用到合成图片中的表情信息,本文将表情识别网络与表情生成网络联合训练,让二者互相促进。此外,为了进一步缓解真实图片与合成图片之间的数据偏差问题,本文提出了一种类内损失,并引入一种真实样本导向的梯度更新方法来优化该损失。这样不仅可以有效增强输入图片特征的类内紧凑性,还可以避免合成图片的参与给识别网络带来的性能下降问题。该方法在CK+数据集上取得了99.34%的准确率;在Oulu-CASIA数据集上取得了88.13%的准确率;而在MMI数据集上,取得了84.81%的准确率。