基于特征感知与注意力机制的人脸表情识别算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:ZXFAMD
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面部表情是人际交往中信息传递的重要途径,在察觉人物情绪和分析人物话语含义等方面起到了非常重要的作用。随着智能设备的广泛应用以及深度学习方法的完善和普及,现有人脸表情识别算法在识别准确率等方面取得了一定提升,但仍旧存在较大改进空间。目前,大多数模型在实验室环境下表现良好,但面对采集自真实世界的数据集时表现并不理想。同时,由于人脸表情识别任务特有的类间相似性和类内差异性,现有的深度学习模型和单一的注意力机制难以获得足够的信息进行准确识别。此外,卷积运算中的填充侵蚀问题进一步干扰了模型的识别能力。为了解决上述问题,提出了一种基于多分支空间注意力与特征感知的人脸表情识别算法(Multi-branch spatial-Attention and Feature Perception,MAFP),该算法包含三个主要网络:特征提取骨干网络提取表情图像的基本特征;注意力与感知网络通过多分支网络结构与空间注意力模块实现多分支注意力,并利用新颖的特征感知方法解决卷积填充侵蚀问题;注意力融合网络差异化表情图像的多个注意力区域并融合为最终表示。此外,为了规避多分支注意力可能出现的不确定性问题,协助模型关注图像重点区域,在上述算法的研究基础上,提出了一种基于分块策略的特征感知与自注意力人脸表情识别算法(Blocking strategy with self-Attention and Feature Perception,BAFP),该算法包含三个主要网络:分块与特征提取骨干网络进行图像分块并提取基本特征;感知与注意力网络解决卷积填充侵蚀问题并获得各图像分块注意力权重;分块融合网络调整各分块特征图及其权重并融合为最终表示。在多个公开标准数据集上进行的多项实验验证了上述两种算法的有效性,以及在不同数据样本条件下二者的性能差异与适用场景。MAFP算法与BAFP算法的识别准确率在RAF-DB数据集上分别达到了91.04%和91.68%;在Affect Net数据集的7种表情类别上分别达到了66.14%和66.62%,在8种表情类别上分别达到了62.03%和62.42%;在SFEW2.0数据集上则分别达到了58.67%和57.51%。
其他文献
局部破坏是连续配筋混凝土路面中常见的病害类型,由横向裂缝、水平裂缝和纵向裂缝共同造成。为了提高路面耐久性,完善路面设计理论,本文针对局部破坏中水平裂缝和纵向裂缝的产生机理展开研究。本文通过现场调查获得了局部破坏附近的横向裂缝宽度、横向裂缝间距等数据,用以建立包含裂缝相关数据的有限元模型。随后通过现场试验获得了获得了横向裂缝产生时路面板的温度梯度以及夏季和冬季的代表温度等数据,用于有限元模型中温度荷
学位
最近邻搜索是向量检索的核心问题,在图片搜索、模式匹配等领域有着广泛的应用。最近邻搜索的目的是从一个向量数据集中找出与查询向量最相似的向量。传统的精确搜索算法在数据维度较低且数据规模不大的情况下,能够取得很好的效果。然而,随着数据维度与规模的增大,传统的精确搜索方法受限于“维数灾难”,不适用于高维向量的检索。因此,近似最近邻搜索问题成为了一个新的研究热点,它通过牺牲一定的精度,更快地从海量向量数据中
学位
随着社会经济的发展,城市道路网络交通拥堵传播现象频繁发生,开展交通拥堵传播研究具有重大理论和实际应用的价值。论文旨在通过建立交通拥堵传播模型,进行交通拥堵传播过程仿真与分析,为制定路网优化策略、缓解交通拥堵提供参考。论文以城市道路网络为研究对象,在分析城市道路网络交通拥堵传播机理的基础上,构建节点拥堵传播重要度评价模型并确定拥堵传播重要度等级划分标准;在此基础上研究构建考虑节点拥堵传播重要度的城市
学位
物联网时代下,操作员可以通过分析传感器等相关设备产生的多元时序数据,及时检测出时序数据中存在的异常,从而排除设备故障,以确保设备正常运行,避免异常造成的损失。然而,由于多元时序数据之间存在复杂的变化模式,多元时序异常检测面临很大的挑战。目前,主流的多元时序异常检测方法大多只考虑时序数据在时间上的依赖关系,或者大多专注于对原始时序数据进行精准重构,而忽略了多元时序数据之间存在的隐藏联系,这制约了多元
学位
管道作为重要的油气资源运输通道和城市生命线工程的重要组成部分,其安全可靠运行必须得到保障。在永久地面位移(PGD)和运营期荷载作用下,管道和地基土之间会发生相对运动可造成管道受损甚至破坏。管土之间存在明显的相互作用,这是管道力学响应的关键影响因素,因此有必要对其进行深入研究以提高对管-土相互作用的认识,同时为管道设计提供参考。本文研究的主要目的是揭示中密至密实砂土中埋地管道在竖向-横向空间中的管-
学位
随着电子商务平台和社交媒体的应用愈加广泛,越来越多的用户倾向于在各大软件平台上发表评论。对这些文本进行情感分析,可以知晓用户态度,给多个领域带来巨大的商业应用价值。对象级情感分析任务可以分成评价对象抽取和评价对象情感分类两个子任务,即先抽取语句中的所有评价对象,再判断每个对象的情感极性。评价对象抽取模型存在的问题有:只使用通用词嵌入,缺少特定领域专有名词的语义信息;忽略历史标注信息与当前标签预测的
学位
二维矩形装填面积最小化问题(Rectangle Packing Area Minimization Problem,RPAMP)要求将一组已知尺寸的矩形模块不重叠地、正交地放置在一个平面内,并使整体布局的面积最小化。RPAMP问题是经典的具有NP-难度的组合优化问题,在工业界也有广泛的应用,如工业原材料的切割和装填、芯片设计的布局规划等。因此,研究求解RPAMP问题的高效算法具有重要的理论价值和实
学位
监督学习由于其强大的非线性表征能力已经成功应用在文本分类,语音识别,图像分类等领域,并在全监督图像分类任务上取得了巨大成功。然而,监督学习需要大量标签样本,这在实际应用场景中难以满足。因此,使用大量无标签样本以及少量标签样本的半监督图像分类算法逐渐成为图像分类领域的研究热点。本文重点研究半监督图像分类算法中结构简单、方法有效的自训练图像分类算法,分析了现有方法存在伪标签噪声和类别不平衡两大主要问题
学位
工业领域的生产设备异常检测实际上是采用无监督技术准确预测设备早期劣化的异常工况和定位具体的异常参数,高斯混合模型是业内最广泛使用的技术之一。深度自编码高斯混合模型(Deep Autoencoding Gaussian Mixture Model,DAGMM)是基于高斯混合模型改造的深度异常检测技术,虽然在生产设备数据集上性能相对较优,但是仍有提升的空间。由于DAGMM所采用的深度自编码器的瓶颈层,
学位
深度学习在自然语言处理(Natural Language Processing,NLP)领域的各项任务上取得了较好的成果,但是深度学习模型由于具有复杂的网络结构、海量参数的特点,内部决策过程难以被理解,模型的预测行为缺乏可解释性。目前针对深度学习在自然语言处理领域的可解释性研究分为两条路线:事后解释方法和自解释模型,事后解释方法从模型的预测结果出发,推断输入中哪些单词对模型预测结果的贡献程度高,自
学位