基于DCNN的自然场景人脸表情识别

来源 :南昌航空大学 | 被引量 : 0次 | 上传用户:z675083421
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在机器智能的世界中,人机交互的便利性不言而喻,但情感交流的感受也是必不可少的。人脸表情识别技术的突破为机器具备情感能力奠定了基础,其在远程教育、医疗健康、智慧城市等方面有着广阔的应用前景。近些年来,随着深度学习的不断发展,针对目标任务的模型性能也得到了大幅提升。众多实验表明,卷积神经网络算法对图像特征的表征与提取能力相较其它算法更胜一筹,在实验室条件下,基于卷积神经网络的表情识别算法的性能更是几乎达到了最高峰;而在现实的自然场景下(In-The-Wild),人脸姿态、背景噪声、光照、遮挡等不受人为控制的因素都使传统的表情识别技术显得力不从心,这些问题亟待解决。此外,对于自然场景的表情数据集来说,其识别结果仍然还有很大的进步空间。在自然场景下采集的人脸表情数据更加接近现实应用场景,但是数据集样本中存在着一些问题,如噪声标签、样本间的类别不平衡、类间差异小和类内差异大等,对识别性能的影响较大。本文基于深度卷积神经网络(DCNN),针对自然场景人脸表情识别的上述问题提出了两种模型框架,显著提升了自然场景人脸表情识别系统的识别性能。主要研究内容与工作方法如下:(1)针对表情的不确定性和噪声标签的问题,提出了基于SCNet抑制噪声标签的人脸表情识别方法。该方法对噪声标签起到了有效的抑制作用,特别是防止了模型在不确定性样本上的过拟合。首先改进并迁移训练了SCNet50作为主干网络,基于注意力机制对每个批次的输入样本逐个学习其重要性,设计的排序正则化模块对低重要性样本(即噪声标签样本)的权重值进行排序,然后使用样本重标记模块对噪声样本进行修正,继续训练至整个模型学习到更加鲁棒的特征,在有限的样本数据集中提取出了更多的有效样本。实验表明,该方法在两个公开的自然场景表情数据集上均取得了较好效果。(2)针对表情样本类内差异大、类间差异小和类别样本数量不平衡的问题,提出了稀疏Center Loss与Focal Loss联合优化的人脸表情识别方法。该方法定制化了一个注意力网络,以卷积网络的空间特征图为上下文信息生成了各维特征的注意力权重,这些权重值用于估算各维特征对目标函数的贡献值,提出了稀疏Center Loss函数作为这里的目标函数;同时,引入Focal Loss函数用于关注难分类的表情样本,采用稀疏Center Loss与Focal Loss联合优化整个模型参数。最后,在三种公开的自然场景表情数据集上进行了大量实验,结果验证了模型方法的优越性。
其他文献
近年来,随着遥感技术的不断发展,遥感影像表现出多源、海量和高分辨率等特征,导致遥感数据呈现指数级增长,给影像金字塔构建和存储带来巨大挑战。因此,如何有效对海量遥感影像进行快速处理、存储以及提升查询效率是目前急需解决的问题。本文在使用Spark结合Geotrellis新型框架的基础之上,设计了一种基于Z曲线的Z-Curve瓦片索引,并结合Accumulo数据库完成对瓦片数据的存储和查询。通过实验验证
学位
图像修复是计算机视觉中一个重要研究分支,其目的是预测合理的像素信息来填补图像中的缺失部分,主要应用于对象去除、图像恢复和图像去噪等领域。现有的深度图像修复算法有两种:非盲修复算法和盲修复算法。非盲修复算法以缺损图像和其相对应的掩膜作为输入,该算法根据掩膜来确定缺失区域的位置。但由于图像缺损的多样性,在实际的修复操作中,难以获得精确的掩膜,因此难以满足实际需要。而盲修复算法解决了这个问题,只以缺损图
学位
随着数字化转型升级和图像处理技术的普遍应用,海量非结构化数据的产生为信息存储带来了新的挑战。为应对挑战,信息存储的载体逐渐由纸质载体转变为数字载体。相较于传统的纸质载体,数字载体具有占用空间小、存储时间长、传输速度快等优势。因此,纸质文档数字化已成为必然趋势。然而,在数字化过程中,由于各种误差的存在,使得文档图像通常会出现一定程度的倾斜、偏移或是透视,进而增加后续图像处理的难度。因此,在处理图像前
学位
现阶段,随着数字化管理的快速发展,现实生活中的系统日益复杂化,这些系统可以抽象表示为复杂网络,方便对其进行研究。社区结构作为复杂网络的众多特性之一,对其挖掘为认识复杂网络的拓扑结构和主要功能提供了新的途径。例如掌握犯罪小团体、控制公共舆论、购物平台的个性化推荐等很多问题都能通过识别网络中的潜在社区来解决。本文利用复杂网络的局部信息对网络中的社区结构展开研究,主要工作有:(1)提出了基于边界节点的局
学位
文字作为人类感知世界的重要手段,具有强大的表达能力,越来越多的领域需要利用场景图像中的文字信息。由于自然场景图像背景复杂、文本形状多变、尺度不一,目前的场景文本检测算法存在小文本漏检、长文本错检、相邻文本误检等问题,因此如何准确地检测出自然场景文本实例是一项具有挑战性的研究工作。针对上述问题,通过对文本检测算法进行深入研究分析,提出了一种高效的任意形状场景文本检测器:基于特征感知增强和图注意力的自
学位
向量优化问题是以多目标决策为背景的一类学科,是数学规划中的重要分支,而集值优化问题是向量优化问题的主要研究领域之一.本文主要研究了集值优化问题近似点集的连通性,连通性为两个解之间的连续性移动提供了可能,因此对于近似点集的连通性具有一定的研究意义.本文主要是在Hausdorff拓扑线性空间中研究近似点集的连通性,主要内容分为以下六个部分:第一章为绪论部分,首先对向量优化问题的研究背景以及发展历程进行
学位
随着移动设备的普及及其拍摄像素的不断提升,越来越多的用户通过这些设备采集表格文档图像。然而受拍摄背景、角度、纸张折叠卷曲程度、光照等多种因素的影响,通过移动设备采集的表格文档图像易出现形变、图像质量下降等问题,给信息提取造成极大困难。针对该问题,本文提出一种形变表格结构识别算法,通过将深度学习方法与传统算法有机结合,实现形变表格文档图像的自动识别与还原。本文的具体研究工作包括以下几个方面:(1)表
学位
同步是一个复杂的动态过程,是指系统之间通过调整各自的动态过程,达到某种意义下的协同运动。同步是典型的非线性现象,同时在实际工程中也有着广泛的应用。由于传播速度的有限性,耦合中常存在时滞。时滞通常会降低耦合系统的同步能力,缩小同步区域,甚至破坏系统同步。因此,耦合系统同步中的时滞效应必须考虑。为了提高时滞耦合系统的同步能力,扩大同步区域,本文通过切换策略来改变原来时滞耦合系统的耦合方式,提出了切换时
学位
近年来经常出现的雾霾天气凸显了经济发展过程中的资源环境问题,人们开始注重区域生态效率水平的提升。现有研究都局限于“要么市场,要么政府”的思维模式,而忽略了社会因素的影响。社会资本能否促进区域生态效率水平的提升?如果能,又是通过什么样的路径和机理?针对这些问题,本文基于社会资本的视角对区域生态效率水平的提升机制和策略进行研究,以期为区域经济与资源环境的协调可持续发展研究提供理论支持和实践指导。本文利
学位
伴随着科技时代的飞速发展,我国教育的现代化和信息化水平越来越高。现代化教学改革不仅带来了教学方式和方法的改进,也同时提供了大量的教育教学数据。为探究影响学生成绩的因素,更好地为学生学习、教师教育和教育管理提供有用信息,本文探索的是基于机器学习算法对学生成绩的预测与研究。运用机器学习算法对影响学生成绩的各种信息进行分析,并利用深度神经网络实现对学生成绩的准确预测。本文研究了基于因子分析法、分类决策树
学位