论文部分内容阅读
自1972年Parke研究人脸动画开始以来,国内外研究工作者使用各种方法合成人脸动画,诸如基于参数控制方法,基于数据驱动方法等等。人脸动画的合成具有广泛的实用价值,用于游戏、娱乐、电影制作可以增长人的观赏价值,带来可观的经济效益,用于可视会议与可视电话可以减少带宽需求,提高实时信息传输效率。
本文对国内外可视语音的研究成果进行了深入分析与总结,实现了一个汉语语音驱动的人脸动画系统。系统首先按照汉语发音规则对汉语拼音单音节的口形进行了分类,然后通过语音切分和识别得到相应的视位类,最后利用视位类的人脸动画参数(FAP:facial animation parameter)以及语音波形和人脸网格模型,通过图像变形手段合成连续的人脸动画视频。本文主要研究内容和取得的成果如下:
1、采用改进的短时能量和短时过零率对语音波形进行自适应阈值的切分,提高了切分的精确性和后续识别的准确性。
2、基于隐马尔可夫模型(HMM:Hidden Markov Model)构建了一个高效、快捷的语音视位类识别算法,并对HMM的状态数、高斯混合模型个数等参数及数据预处理方式进行了优化,提高了识别率和识别速度。
3、在合成视频过程中采用基于参数控制方法和2.5D人脸模型。将识别的视位类拆分成汉语声韵母,进而确定相应的FAP参数进行动画合成,提高视频合成的平滑度。同时加入了一些眨眼,点头等特殊效果,以及利用深度信息来模仿三维摇头动作,增强了逼真程度。
实验结果显示,在视位类识别过程中,对特定人可以达到99.13%的识别正确率,对非特定人可以达到96.74%的正确率。利用识别结果合成的可视语音口形自然、与发音内容一致,并能与语音较好地同步,具有一定的实际应用价值。