论文部分内容阅读
MPEG-4作为集中各种多媒体应用于一体的新一代压缩标准得到广泛应用,而其中基于内容的编码标准因其应用的优势成为MPEG-4标准的重要特色之一。本文选择视频信息中频繁出现的视觉对象--人脸作为编码内容,开展面向MPEG-4模型基编码人脸分析与合成的理论和方法研究。该项研究工作涉及到三个主要环节:面向MPEG-4的人脸建模、以人脸动画参数提取为目的的人脸分析,以及利用人脸动画参数进行模型驱动的人脸合成。
在人脸建模方面,本文提出一种面向MPEG-4基于三维形变模型进行自动化人脸重建的方法。该方法针对基于重采样的规格化人脸数据进行网格简化,以便适用于MPEG-4模型基编码应用下的人脸重建,最终采用三维形变模型得到用于人脸运动分析和动画的人脸模型。
在人脸分析方面,结合状态预测的解析优化,本文提出一种基于图象配准原则提取人脸动画参数的算法。针对有表情图像的面部跟踪,通过引入预测模型来约束优化搜索范围,更加合理地描述搜索空间,以指导搜索的正确进行,加快速度,提高效率。为综合考虑整体残差和局部残差表达的合理性,提出一个新的衡量图像配准的相似度准则,计算面部特征点的刚性和弹性位移,并最终转化为可供合成端进行人脸动画驱动的面部动画参数。另外,针对有较大刚性运动图像的面部跟踪,提出结合头部姿势估计进行面部特征跟踪的方法。引入头部姿势估计调整人脸网格模型进行全局移动,通过对图像之间的刚性运动进行补偿,使跟踪在新的位置上继续,以便加快迭代速度。
在人脸合成方面,本文提出基于局部训练的控制点运动扩散算法和基于独立分量分析(ICA)的人脸全局动画驱动模式。为了进行人脸动画的全局调整和运动特性分析,本文基于局部训练建立面部动画参数控制点与非控制点之间的运动关系模型,基于独立分量分析抽取人脸动画基本模式,构建可以组合表达真实人脸运动的独立分量主元,给出更加紧致准确的一般人脸动画表达模式,改善人脸动画的真实性。
在以上各项研究的基础上,本文最终构建了面向MPEG-4模型基编码,针对人脸视频进行人脸分析和合成的原型系统。该系统可以完成从特定人脸建模,基于视频分析的人脸动画参数提取,到基于动画参数驱动的人脸视频合成等各部分功能。