论文部分内容阅读
人脸是人类日常情感表达和交流最重要、最直接的载体。通过计算机生成具有真实感的三维人脸拥有广阔的应用前景,是近年来计算机图形学、计算机视觉、人工智能等领域中最具挑战性的问题之一。人类视觉系统在识别二维图像的过程中,往往先根据平面图像还原出图像的三维立体信息,人类天生具备从单张平面照片进行三维信息恢复的能力。模拟人类的这一图像认知过程,研究基于单张平面图像的人脸三维建模技术,是当前认知计算中的一个重要问题。利用三维扫描仪获取三维形状数据和纹理信息是一种直接的人脸建模方法,通常具有较高的精度,但是存在硬件设备造价高、不灵活等不足,一般只适用于某些特殊场合;当前的研究热点主要集中在根据图像和视频序列进行人脸重建,现有基于多张图像的方法普遍存在特征点匹配复杂、效率低等不足。根据单张人脸照片上的少量特征点能够快速、自动地实现特定人脸的建模,是目前三维人脸建模研究中一个极具潜力的研究方向。然而,如何充分地利用少量的信息重建出真实感好的人脸模型是其面临的主要挑战。本论文以统计学为工具,通过建立人脸统计模型,利用人脸结构先验知识对三维人脸形状的建模进行约束,从而实现了以单张照片上少量特征点为基础的三维人脸建模。针对基于单张照片的三维人脸重建问题,本文的主要研究内容包括:创建标准化的三维人脸库,并以此建立人脸类的统计模型;研究高效的基于特征点的变形算法和人脸建模方案;探索基于三维人脸的应用研究。取得如下研究成果:1)提出一个基于平面模板的重采样算法,解决了三维人脸稠密点的自动对应问题,实现了人脸库的标准化。建立标准化的三维人脸数据库是建立人脸统计模型、人脸建模和人脸动画等方面研究的基础性工作。本文在网格重采样方法的启发下,提出一种基于平面模板的方法,可以自动地实现三维人脸间的对应,克服了传统方法对应效果差、手工操作复杂等不足。实验结果表明,经本文算法标准化处理后的人脸库具有较好的对应效果,为建立人脸形状统计模型进行三维人脸建模奠定了基础。(第2章)2)针对单张平面图片,提出基于人脸二维特征点的三维形变算法。(?)提出一个全局形变算法——基于动态成分的形变模型(DynamicComponent based Deformation Model,DCDM),通过筛选对建模最有效的主成分,提高了形变算法的精度和稳定性。传统基于主成分分析(Principal Component Analysis,PCA)的形变算法通常选择具有较大特征值的部分主成分构成特征矩阵,这种选择方式会引入不相关信息或者丢失有用信息,为后续建模带来误差。本文提出一个筛选策略,采用t检验对每个主成分进行是否线性相关的显著性检验,选择与当前特定人脸最相关的成分来构成特征矩阵,实验表明DCDM提高了建模的稳定性并降低了建模误差;(第3.3节)(?)提出一个基于先验知识的局部形变算法——基于Sibson坐标的加权LFA形变(Sibson Weighted Local Feature Analysis,SWLFA)算法,通过计算权值增强了LFA算法的局部性,使之能够根据少量控制点生成真实感较好的人脸形状曲面。针对全局形变算法重建出的人脸形状个性特征不突出的问题,将Sibson坐标用于局部特征分析,实现了基于人脸形状结构知识的局部形变,SWLFA算法以Sibson坐标为权值,既能够避免控制点之间的干扰,具备较强的局部性,又能充分地利用人脸形状的先验信息,保证较为真实的建模效果。(第3.4节)3)提出两步人脸建模(Two-Step Face Modeling,TSFM)方案,通过对三维人脸库知识的学习,实现了对单张图片上人脸特征点的深度估计,提高了形变算法在三维人脸深度方向(Z轴)上的重建精度。由于单张照片上的人脸特征点的深度信息未知,仅通过形变算法的改进对建模精度的提高有限。本文探讨了特征点深度估计的三种方法,指出本文提出的基于稀疏线性模型的优化算法能够相对准确、稳定地估计出二维特征点的深度信息。实验结果表明,将深度估计值应用于形变算法,可以提高人脸的重建精度。另外,TSFM不仅适用于基于统计模型的形变算法,还能改善其它插值算法在深度方向上的建模性能。(第4.2节)4)以重建的三维人脸模型为基础,解决了光照估计和姿态估计问题,并进行了三维人脸动画的研究。(?)通过建立三维中性人脸与输入人脸图像顶点的对应关系,估计人脸图像上每个像素的法向量,并采用球面谐波模型实现任意光照条件下单张照片人脸的光照估计和补偿。实验结果表明,人脸图像经光照补偿后能够明显提高人脸识别率;(第5.2节)(?)根据三维人脸模型与输入照片上人脸特征点之间的对应关系,采用线性回归实现了输入照片的人脸姿态角估计。实验结果表明,相对已有算法,该算法能够提高单轴、多轴偏转角度的估计精度;(第5.3节)(?)采用一个三层运动控制方案,实现在特征点、器官和表情合成三个层次上的控制,并开发了一套人脸表情动画系统。运动控制采用了MPEG4标准,具有自动化程度高、通用性强的特点。实验结果表明,本系统能够生成逼真的三维人脸表情动画。(第6章)