基于维度空间模型的人脸视频情感估计

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:a63685296
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
情感估计是人机交互中至关重要的一环,让机器准确地理解用户情感可以建立起更加和谐的人机环境。由于面部表情是人类表达情感的主要方式,因此,基于人脸视频的情感估计成为近年来的研究热点。情感主要有离散分类和连续维度两种模型表示。其中,基于连续维度的情感模型将情感状态映射到一个连续的维度空间中,相较于离散分类的情感模型,它可以描述出更复杂、微妙的情感。因此,本文致力于探究自然环境下的人脸视频维度情感估计,具体内容如下:1)当前大多数用于情感估计的时序模型只适用于捕捉短期时序依赖。而自然条件下的情感状态变化非常缓慢,任何相邻时刻之间的情感差异非常微小;同时,情绪通常会随着时间的推移而演变,当前时刻的情感状态往往是由前面的情感状态引导而来。因此,需要捕捉长期时序依赖来保证模型能够有效地学习到情感变化信息。基于此,本文提出了一个两阶段注意力时间卷积网络用于自然条件下的人脸视频维度情感估计。在不增加参数量的情况下,通过调整扩张因子,灵活地增大感受野来获取时间维度上的全局信息。该方法将第一阶段的初始识别结果送到第二阶段进行优化,以获得更加精细的预测结果,并在每个阶段,引入注意力分支使网络具有多种粒度的特征提取能力。同时,该网络还由平滑损失函数与MSE联合进行训练,进一步提高了预测的质量。该方法可以有效地获取长期时序依赖,实现较好的估计准确率。在RECOLA数据集上进行的大量实验表明了该方法的有效性。2)在过去的情感估计工作中,学者们广泛研究了情感数据和网络模型,但是对情感标签的关注却比较少。然而在现存的情感数据集中,标签不一致性普遍存在,特别是对自然条件下的数据集。这主要是标注者的主观偏差和面部表情本身的模糊性所造成的,不一致的标签往往会对情感估计造成不利的影响。基于此,本文将将情感的维度回归作为主任务,情感的离散分类作为辅助任务,构建一支多任务网络。辅助任务可以给主任务提供更多的情感信息,弥补了维度情感数据集中的部分标签不一致。另外,为了避免人工设置辅助标签,本文单独设立一个标签生成网络来自动地产生辅助任务的真实标签,再利用辅助任务的损失函数与主任务的损失函数一起联合优化多任务网络,最终实现情感的维度估计。该方法在一定程度上解决了标签不一致问题,并在RECOLA和AFEW-AV两个数据集上的实验结果表明,加入辅助任务可以在主任务的基础上提高模型的估计准确率。
其他文献
目前,全国主要的医疗机构基本上都搭建各自的网上预约挂号系统或者电话挂号系统,但是从近些年的运行效果来看,预约挂号的放号量和使用率都不高。而且存在一些问题,如上办事大厅虽然有统一接入平台,但是预约挂号的提示不明确,医院出诊表不统一,存在各式各样现象,人机交互程度较差,群众使用起来极为不便等问题,有些还是单一PC端网站预约挂号平台,这些平台已难以满足患者的需求。随着移动互联网技术已经突飞猛进发展,预约
生物特征识别技术是最有效的个人身份认证解决方案之一。随着生物特征识别技术的广泛应用,生物特征识别数据库的规模不断扩大。在这种情况下,快速匹配和检索技术越来越有必要。掌纹识别技术是近年来新兴的生物识别技术之一。在掌纹识别技术中,有多个子类别,包括低分辨率掌纹识别和三维掌纹识别技术等。研究者们已经提出许多掌纹识别算法。而对快速的掌纹检索的算法研究还处于起步阶段。哈希技术是最流行的图像检索技术之一,由于
随着科技的发展和公共安防需求的增加,智能监控系统的部署成为了一种流行趋势,其核心是行人再识别技术。本文首先简要介绍了行人再识别研究的意义、现状、挑战;接着深入研究行人再识别的理论知识,概述了行人再识别发展至今的经典算法;然后针对行人图片错位、遮挡、无关信息干扰等问题,对融合全局特征与局部特征的行人再识别算法进行研究,以上述两种类型特征的有效提取方法为切入点,做了以下研究工作和算法创新。第一个工作是
光场相机通过对单个场景进行多视角密集采样,使得高精度深度信息的挖掘成为可能,在深度传感器中不论在便携性还是深度精确性方面都具有显著优势。现有的深度估计方法不能很好处理遮挡和噪声问题,特别是对于包含遮挡区域的噪声场景,遮挡和噪声的同时存在将使深度获取难度进一步加大。本文分别围绕遮挡和噪声这两大难点问题对光场深度估计展开研究。论文的主要研究工作如下:(1)概述光场深度估计原理以及国内外的应用场景和研究
水下图像是获得水下场景信息的重要媒介之一,在水下探测、海洋研究等领域都扮演着重要角色。然而,光在水下传播时会与水体产生强烈的吸收与散射作用,导致水下成像质量下降,严重限制了水下的可视范围。因此,水下成像及复原技术在水下救援、海洋探索以及海洋目标识别等领域都有着重大意义和实际价值。本文首先针对水下图像中散射光去除的问题,采用分层思想分离图像中的散射光,实现了水下图像复原,提高了水下图像的质量;其次针
大数据时代,人们日常生活中处处都在积累着数据,从而导致大量的数据在不停的堆积,这些数据的内在价值是让很多学者们去研究聚类算法的动力。聚类算法的出现,使得巨大的数据得以发挥背后隐藏的价值。聚类有效性指标是对聚类结果进行评价,对于发现正确聚类数起到关键性的作用,然后现有指标存在簇中心分布很接近时难以得到正确聚类数、分离性处理机制过于简单、面向含噪声的数据集效果较差的问题。为此,本研究面向模糊聚类提出了
随着智能化信息时代的到来,校园学生对于获取信息的高效性也越来越重视。目前高校学生获取各类信息需要在不同的App和平台上进行,这对高校学生获取信息造成一定的局限性。在信息爆炸的时代,快速找到自己有用的信息对提高生活品质也显得必不可少。为此,需要搭建基于个性化推荐的、集失物招领、交友、经验交流、买卖交易为一体的校园学生互动管理平台。本平台采用个性化的推荐算法,为每一位学生提供个性化的服务,从而让用户快
卷积神经网络在计算机视觉领域得到了大量的应用,尤其是基于卷积神经网络的目标检测方法目前在学术界和工业界都受到了广泛关注。然而,由于卷积神经网络具有较高的计算复杂度,目前目标检测方法通常依靠大型服务器如GPU(Graphics Processing Unit)进行运算。但是,当前GPU平台存在功耗高、体积大以及成本昂贵等缺陷,使得基于卷积神经网络的目标检测方法难以应用于移动机器人、无人机等轻量化平台
如何基于给定的输入文本描述生成与之相一致的图像是一个十分具有挑战性的问题。目前的方法大都是首先合成一张初始模糊的图像,然后提炼这张初始图像去生成高质量的图像。然而,现在大多数的方法都很难合成与输入文本描述相一致的初始图像。所以如何在初始图像不好的情况下去合成高质量的图像至关重要。在本篇论文中,为了解决这个问题,基于生成对抗网络(Generative Adversarial Networks)做了以
面部表情是最直接、有效的情感表达方式,与之相关的人脸表情识别技术也被广泛应用于人机交互、智慧医疗等多个领域。人脸表情的表示模型分为离散分类和连续维度,离散分类模型把面部表情分为六种基本表情,而连续维度模型通过建立连续的情感空间来描述复杂微妙且连续变化的表情。自然环境下的人脸复杂多变,且连续维度模型对表情进行了更加细致的划分。本文针对自然环境下的静态图片和动态视频场景下的连续维度模型的人脸表情识别问