论文部分内容阅读
机器拥有理解人类情感、感知外部世界的能力一直是人类追求的目标。蒸汽机革命使机器代替了人的手工劳动,解放了人的四肢;电气革命以及近代的信息革命使得人类可以利用机器增强自身的视觉和听觉能力,同时一些简单而又冗长的计算也可由机器来完成。如今,如何使机器像人一样拥有感知、理解和判断的能力,代替人完成一些重复、繁琐的脑力劳动,从而使人能够抽出时间做一些更有意义的事情,就成了现代人工智能技术要解决的课题。人脸图像识别,是指通过对人脸图像或图像序列的分析,机器判断出图像上人的身份、性别、年龄以及面部表情等特征的过程,是建立在概率论、最优化技术、信息论、深度学习以及流型学习等学科基础之上的实践性很强的一门学科,是当前计算机视觉研究领域的一个非常活跃的分支。本文对人脸身份识别和人脸表情识别两个课题进行了深入的研究,提出了三个新的算法。其中前两个算法围绕着如何提高人脸身份识别的性能一复杂度比,分别从人脸图像上局部二值模式LBP出现的概率和图像纹理的主导方向两个角度进行展开,而第三个算法为采用ADABOOST从一系列由局部纹理主导方向分布特征所构成的弱分类器中训练出高性能的人脸表情识别分类器。本文的主要创新及贡献如下:1.数码相机和智能手机等移动终端的出现,使得图像的采集变成了一项非常容易的事情。由于移动终端等嵌入式设备的计算和存储能力有限,要在移动终端实现人脸图像识别,需要将采集到的图像通过网络发送到服务器端,在服务器端进行识别后再将识别的结果返回移动终端。然而图像的数据量很大,而压缩后的图像会造成特征纹理的损失,同时无线传输的有限带宽也会造成信号实时传输的瓶颈。第3章提出了一种网络环境下在移动终端上进行人脸图像识别的新的算法,该算法采用维数较小的可变长占主导作用的特征向量VLDF作为人脸图像的特征表示。具体来讲,移动终端负责图像的采集、Gabor变换、LBP特征提取、可变长直方图特征求取等硬件电路能够完成的工作;所采集的人脸图像的VLDF特征发送到服务器端后,服务器端将其与图像库中已知身份的人脸图像的VLDF特征进行比对,计算二者之间的距离。最后将距离最小的图像库中的人的身份作为被测人脸图像的人的身份发给移动终端,完成人脸图像的识别。从试验中获得数据得知,虽然理论上有256种模式类型,但80%的像素点的模式集中在平均约9种起主导作用的模式类型上,仅占通常采用的Uniform LBP特征的特征向量长度的1/6。在FERET人脸图像数据库上的实验结果表明,论文提出的基于VLDF算法的性能要优于PCA、Fisherface、LBP以及Gabor-M+FLDA。尤其是在对存在亮度变化的人脸图像的识别性能方面,其识别率达到了0.9381,远远地高于上述四种算法.2.第4章采用局部Gabor主导方向模式LGDDP特征作为人脸图像的特征表示,并应用该特征表示构建了一种新的人脸图像识别算法。该算法充分利用了Gabor算子和LBP算子在捕捉图像纹理结构特征上的互补性。人脸图像首先进行Gabor滤波,得到多个尺度和多个方向的滤波输出;接着每一像素周围的8邻接像素中最大和第二大的两个像素相对于中心像素的方向被编码成LGDDP。利用LGDDP获得图像的空间直方图向量,并采用加权空间直方图相似度度量进行人脸图像识别。相比目前已发表的人脸图像识别算法,该算法具有较高的准确率和较低的运算复杂度。3.人脸表情是人内心世界的反映。通过识别人脸表情,机器可以获知人对某一事件的看法及其精神状态。如了解课堂上学生对老师授课的感兴趣的程度、了解司机驾驶时是否处于疲劳状态、观众(顾客)对某一广告(商品)的感兴趣程度等等,因而自动人脸表情识别具有非常重要的实用价值。当前的人脸表情识别的研究所利用的特征可分为基于人脸容貌的特征和基于脸部器官儿何位置的特征,研究的内容可分为单幅人脸表情图像和包含表情开始到表情高潮再到表情结束的图像序列。第5章提出了一种基于单帧图像的人脸表情识别算法,该算法结合了人脸图像的几何特征和容貌特征,在提取了人脸不同部位基准点附近的纹理特征并构建各自的分类器之后,采用ADABOOST的方法将多个分类器进行组合,从而实现高性能的人脸表情分类识别。算法主要的优点有:1)分别计算两眼、鼻尖和嘴角区域的特征,将这些区域的特征向量进行连接并构成最终的特征向量。相比提取整个人脸容貌的特征,这种特征向量能够有效地提高算法对不同脸型的鲁棒性;2)采用Gabor滤波提取图像各个尺度和方向的纹理信息,提取纹理的局部主导方向分布特征LTDD来构造各个区域的分类器;3).采用ADABOOST方法从所构造的多个分类器中挑选出性能较好的一些分类器,赋予他们合适的权值并进行组合,从而构造出高性能的人脸表情分类器。通过在Cohn-Kanade人脸数据库上的实验验证了该表情分类识别算法的有效性。