基于离散和连续模型的视频人脸表情识别研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:tcrct
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面部表情承载着人类的情感信息,被视为是超越了种族和文化多样性的一种通用语言。深入研究人脸表情识别,有助于更好地理解人类的情感状态和心理活动,在人机交互中实现更智能的互动。动态表情序列蕴含了丰富的时空域信息,能够有效地反映面部表情的变化过程,因此基于视频的表情识别研究成为新一代人机交互系统的重要研究方向。人脸表情识别分为离散和连续两种表示模型,这两种情感模型在社会生活的诸多领域都有着巨大的应用价值。例如零售行业通过识别消费者购物时的基本表情,评估顾客对商品的喜好;在线教育行业应用连续维度表情识别监测学员状态,细化课程质量分析。本文研究了视频序列中的离散表情分类与连续表情回归问题,主要工作包含以下两个方面:(1)长短期记忆网络(LSTM)广泛应用于视频序列的人脸表情识别,针对单层LSTM表达能力有限,在解决复杂问题时其泛化能力易受制约的不足,提出一种层级注意力模型:使用堆叠LSTM学习时间序列数据的分层表示,利用自注意力机制构建差异化的层级关系,并通过构造惩罚项,进一步结合损失函数优化网络结构,提升网络性能。在CK+以及MMI数据库上的实验结果表明,由于构建了良好的层次级别特征,时间序列上的每一步都从更感兴趣的特征层级上挑选信息,相较于普通的单层LSTM,层级注意力模型能够更加有效地表达视频序列的情感信息。(2)辅助学习可以提高主任务的性能,但辅助任务往往需要手工标注,这会耗费大量的时间和人力。本文将连续维度(Arousal-Valence模型)情感估计作为主任务,离散情感分类作为辅助任务,提出一种自辅助学习的方法。该方法包含两个网络:标签生成网络用于自适应地创建辅助任务的标签,多任务网络用于主、辅任务同时训练以提高主任务的性能。两个网络之间以元学习的形式进行交互,通过迭代不断优化模型的性能。自辅助学习能够避免人工标注辅助任务,从而为一些不兼容辅助任务标签的数据集提供了借助辅助学习改善原任务性能的潜在可能。基于Recola数据集进行的评估实验验证了本文提出的连续维度情感识别算法的有效性。
其他文献
社交媒体已经从官方的消息发布平台发展成为大众交流和情感表达平台。基于自然语言处理技术的社交媒体分析、观点抽取和情感分析等研究显得愈发重要。在发现社交媒体文本中蕴
生态数据存储规模随着生态学领域研究尺度的拓展不断扩张,而传统中心化数据存储方式面对日益庞大的海量生态数据越来越难以为继,观测数据易重复、易篡改、难共享以及存储成本
合成孔径雷达(Synthetic Aperture Radar,SAR)自提出以来就作为一种非常重要的探测成像手段被广泛使用。自提出至今,SAR广泛应用于国防、城市道路检测以及自然灾害监控等方面
切换正系统是一类特殊的切换系统,在工业生产实践中具有广泛的应用。切换正系统的优化和L1增益问题在控制科学与工程领域一直是一个热门研究课题,其对于生产过程自动化、自动
航空发动机是飞机的核心动力装置,针对航空发动机的故障预测与健康管理,对于提高飞机的安全性和降低飞行的成本有着至关重要的作用。发动机剩余使用寿命的预测方法是近年来飞
当前我国经济处于转型升级向高质量发展的时期以及在全球向智能制造变革背景下,制造业中的许多中小企业面临的市场形势发生较大变化,多品种、中小批量的市场需求成为常态。在
人们对个人隐私的关注不断提高,然而现实中许多业务对民众的个人信息却保护不足。例如,在快递面单上,以明文的方式显示着用户的诸多个人信息,因此,有研究者使用分段加密来防
近年来,服务器内存容量的迅速扩大使得应用程序逐步将更多数据存入内存中,这也引发一个新的计算模型——内存计算。内存键值存储系统因其语义通用、使用方便而备受关注,如Mem
图(Graph)是一种以顶点和边构成的包含多种信息的复杂数据结构,图计算(Graph Computing)则是在图数据中寻找一定关系的一类计算的总称。图计算将现实条件中的关系属性抽象为图数据结构并进行复杂计算,而如何在极大规模的图数据集上完成高性能的计算是图计算需要解决的关键问题。可编程逻辑门阵列(Field-Programmable Gate Array,FPGA)作为并行化的计算密集型加速硬件
情感是人类日常生活中至关重要的一部分,在人类的认知、互动、决策过程以及对外界环境的感知中都起着重要的作用。近年来随着人工智能(Artificial Intelligence,AI)技术的研