基于对抗式学习的人脸表情识别

来源 :深圳大学 | 被引量 : 0次 | 上传用户:xiaolinshihonggang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的不断进步发展,人脸表情识别(facial expression recognition,FER)在人机交互、安全、机器人、医疗、通信和驾驶领域得到了广泛的应用,成为学术界和工业界的研究热点。然而,人脸表情特征的提取和分类仍然面临着诸多困难和挑战,存在着一系列亟待解决的问题。一方面,现有的人脸表情数据库不完备,要获得高质量带有标记的大规模训练样本是困难,目前的表情数据库规模都不大,影响了表情识别率的提高。在表情分类中,有些表情类别之间存在极大的相似性特征,例如厌恶和恐惧,它们是两种完全不同的表情,但是在发生时却同样都具有眉毛压低,嘴唇紧闭的特征。这种不同表情之间的相似性特征大大增加了表情识别的难度。为了更好的解决这些问题,在基于现有人脸表情识别算法的基础上,本文工作紧紧围绕如何提升人脸表情识别的准确性和鲁棒性,从数据预处理、特征提取和损失函数设计三个方面展开。从人脸数据的多属性问题出发,提出了一种基于对抗式特征蒸馏的人脸表情识别算法,将人脸表情特征和其他属性特征分离开来。从人脸表情图像的组成结构出发,提出了一种基于残差特征学习的人脸表情识别算法,通过表达成分特征减去中性成分特征计算出具有表情类别区分度的残差特征。从人类识别面部表情的角度考虑,提出了一种基于对抗式学习的残差特征人脸表情识别算法,通过比较给定图像和参考图像(例如中性面部图像)之间的差异来提取面部表情的残差特征。这三个方法虽然从三个不同的角度入手,但之间是依次递进的关系。在CK+、MMI、BU-3DFE和Oulu-CASIA数据集上的实验验证,与现有的一些方法相比所提出的算法具有更优的人脸表情识别性能。所提算法分别取得了CK+98.17%、MMI 77.51%、BU-3DFE 88.67%和Oulu-CASIA 87.50%的分类准确率。为了将算法更好地应用到实际中,我们设计了一个人脸表情识别系统,使用RAF-DB数据库作为训练集和测试集,在RAF-DB数据库上取得了82.79%的分类准确率。另外,在互联网、公开数据和自拍数据上的测试结果表明,我们的系统对于常见的各类人脸面部表情都有较好的识别性能。
其他文献
轨道交通在国内快速发展的同时,保障公共安全的轨道线路日常养护检修工作越来越受到重视。随着轨道车辆技术的发展与提速、线路里程的增长带来的检修压力,轨道扣件在保持轨道线路稳定上愈发重要。轨道扣件在实现钢轨与道床的连结固定、保持轨道间距上有着重要作用。目前轨道扣件日常养护中以人工检测为主的检测方法已经无法满足轨道线路智能化检测的需求,人眼只能针对破损性扣件进行目测而无法对扣件的扣压力进行评价。本文研究的
近年来,无人机技术有了广泛的应用和长足的发展,人们越来越多的使用无人机进行多种场景的拍摄。尤其对于诸如城市街景、山水风景等固定场景,使用无人机拍摄的相关技术和方法已经非常成熟。而复杂动态场景的实时拍摄,仍然以使用摇臂摄像机,设置多个机位,依靠人为操控的传统方式为主。如果能将无人机用于复杂动态场景的实时拍摄,将能节省大量人力,并有望达到更好的拍摄效果。与其他平台相比,从无人机平台上对这种场景的处理需
研究约翰·凯奇的音乐创作特点并非易事。一方面源于约翰·凯奇创作数量之多、涉猎风格类型与体裁甚广——两百多部音乐文本,拥有独奏(唱)、重奏(唱)、合唱、大型多媒体综合表演等多种演出形式,涵盖室内乐、管弦乐、电子音乐等多种音乐类型,且风格多变。然而,音乐创作总是沿着时间脉络呈过渡性发展,笔者因此为众文本划分阶段,并从各阶段挑选典型文本,细析一二,从而管中窥豹,获悉约翰·凯奇音乐文本的基本全貌;另一方面
“乐感文化”是一种乐天知命的实用主义文化,具有导向人与内部身心、人与人、人与外部环境等的和谐、以追求“天人合一”为最高境界的内涵特征,对中国文化的发展有着深刻的影响。本研究以中国传统“乐感文化”作为切入点,以中国舞台民间舞创作为研究对象,分析“乐感文化”对中国舞台民间舞创作所产生的影响。文章绪论部分主要阐述研究缘起与研究目的,对以往有关“乐感文化”的研究动态、中国舞台民间舞创作的研究动态进行了历史
随着经济的发展和人民生活水平的提高,企业和个人迫切需要进行各种投资以使得其收入和资产得到保值和增值。股票、期货、外汇、黄金、基金等金融产品层出不穷。人们在投资这些金融产品时,可以获得较为高额的收益,但是也可能导致很大的损失。金融市场的危险无处不在,所以人们在投资时都需要面对一个问题,就是如何在追逐着丰厚收益的时候对其带来的风险进行评估与控制。投资组合是一种财务概念,可以组合多个股票以降低风险。投资
物联网时代,三维技术对深度传感器的需求在不断上升,特别是在自动驾驶、虚拟现实、增强现实、机器人视觉、工厂自动化、人工智能等领域的应用不断增加。近十年来,三维成像和测距成为了最重要和最富有创新性的研究领域之一。其中最为热门的即是光子飞行时间技术(Time of Flight),简称To F。To F根据测距原理的不同,一般可以分为两种:时差测距和相位测距,即直接式和间接式。间接式To F深度传感器具
文字包含丰富的语义信息,常用来表达情感,传承知识。本文主要研究现实生活中的文字,这类文字被称为自然场景文本。场景文字的检测和识别技术具有广泛的应用场景,如车牌识别、票据识别、图像检索等。自2012年以来,基于深度学习的方法在计算机视觉刷新了多项任务的指标,取得了叹为观止的成果,当下文本检测领域的主流方法也都使用深度学习算法。本文基于深度学习框架,围绕场景文本不规则的形状、变化幅度大的尺度以及大间距
大数据、人工智能技术的研究和应用正在不断加速金融产业的发展。许多金融信贷机构已经将数据挖掘技术应用于信用贷款风险预测、信用评分,从海量的客户数据中抽取可以识别客户风险的有效信息,进一步实现精细化的信贷审批和额度分配。由于客户数据存在高维度、类别极度不均衡、稀疏等问题。目前,信贷风险预测的研究主要集中在特征工程和信用评估模型上。特征工程可以从原始数据中构造出特征数据,评估模型将客户的特征数据进行模式
近几年来,随着国家经济快速发展与企业间竞争的加剧,上市公司越来越偏重于利用并购重组来实现经营扩张以提高竞争力。并购的高溢价是日趋活跃的并购市场的产物,高溢价所带来的高商誉屡见不鲜。当前,我国资本市场上市公司并购产生的高溢价、高商誉问题突出,引起了各方关注。资本市场投资者主要关注的是,并购的交易价格是否合理,并购的高溢价、高商誉能否换来优质资产,能否给公司带来更快的成长与价值提升。上市公司并购产生的
新零售平台通过利用信息技术和大数据分析有望获得可观的潜在回报,快速、深入发展的新经营模式推动了制造业供应链系统的变革和重塑。但投资应用大数据技术成本高昂,且由此带来的高能耗及环境问题也日益突显,因此从供应链信息研究的角度刻画并评估大数据投资和利用价值便显得尤为重要。在此背景下,本文将大数据投资作为内生性因素引入供应链信息共享分析框架中,尝试探讨大数据投资与信息共享在供应链中的交互影响。本文设定了由