论文部分内容阅读
通过分析面部图像识别表情状态,实现系统对用户情感的认知,有利于提升人机交互的智能性,更好的服务人类对象。由于表情具有动态性,即表情的产生和消失通常是一个过程,所以通过表情序列描述表情,可以有效地反映人脸表情变化的过程,相对于静态表情图像,具有更加丰富的时序信息。研究如何实现表情序列的快速识别和提高表情序列的识别率,将具有深刻的理论和现实意义。为了解决上述问题,本文将隐马尔科夫模型(HMM)与极限学习机(ELM)融合为一个两层分类结构,称为动态ELM模型。其中,下层HMM模型负责提取表情序列中的时序信息,通过Viterbi算法将表情特征序列转换为更有利于揭示情绪单元状态转移规律的隐藏序列;上层ELM模型负责对隐藏序列进行分类。该模型一方面继承了HMM对动态信息的处理和转化能力,另一方面获得了ELM训练效率高的优势,从而实现了对表情序列的高效分类。此外,由于离散HMM模型不能够直接处理特征向量组成的序列,需要将向量组成的序列转化为标量组成的序列,又由于提取的图像特征为分类型数据,本文改进了K-modes聚类算法来解决这一问题。算法通过匹配新样本在各个簇中对应标签出现的频率来评价与聚类中心的相似程度,相对于K-modes算法提高了聚类性能。论文主要创新点和工作体现在以下几个方面:(1)主要表情部位分割和Gabor特征提取。考虑到面部不同区域在表情识别中具有不同的作用,本文分割了人脸表达表情的主要区域,并采用Gabor特征实现对每块人脸表情的特征提取并对其进行了PCA降维。同时分块内部进行了K-means聚类,每个分块获得一个聚类标签,将主要区域的标签进行合并形成完整的人脸特征。(2)提出了改进的K-mode聚类模型。为了解决离散HMM无法处理向量序列的问题,改进了K-modes算法,并做了对比试验。实验分析了K-means算法、K-Modes算法、改进的K-modes算法在类间距离、类内距离等指标上的区别,实验结果表明改进的K-modes算法具有更加良好的聚类性能。(3)提出了动态ELM计算模型。为了提高动态表情序列的识别率,改进了传统动态序列识别方法隐马尔可夫模型,提出了ELM模型组成两层模型。其中底层模型采用隐马尔科夫模型,实现从描述表情特征的观察序列到揭示表情变化规律的隐藏状态序列的转换,然后利用上层ELM模型实现对隐藏状态序列描述的表情进行分类识别。实验结果表明,动态ELM方法在识别率和识别速度方面优于传统HMM方法。