论文部分内容阅读
语音信号和视觉信号是多媒体交互信息的主要载体.人们对语音、图像的处理技术已经有了比较深入的研究,但是对于语音和图像之间的内在关系的研究却还不够深入.作为综合考虑语音和图像的一种技术,智能人机接口技术尤其是虚拟人脸合成成为近年来国内外的一个热点研究领域.该项技术也被称为多模态(Multimodal)、视觉语音(Visual Speech)和说话人头(Talking Head).将语音和图像两种模态结合到一起,能够对单一使用某一种模态的不足进行合理、有益的补充,加深了信息的可理解性.通过虚拟人脸,可以增强人们与计算机的交互,而将语音和图像相结合同时也给相关的研究领域带来新的研究方法.例如,引入同步的人脸动画信息,可以提高在环境噪声较大、以及语音信号不稳定等情况下对语音识别与理解的识别率和稳健性.该论文通过分析研究已有的人脸语音动画合成技术,引申出一套使用改进的隐马尔可夫模型结构来存储语音和图像之间的内在联系,利用隐马尔可夫模型的既有算法来实现从新语音样本序列到新图像样本序列的映射的人脸语音动画合成方法.作者开发的实验系统,能够实现特定对象的语音动画合成,其结果具有照片真实感,通过使用平滑技术加强了人脸图像之间的平滑过渡,能够使得虚拟人脸更加真实.该论文的方法和结论,为进一步提高语音动画合成的实时性、真实感、以及适应性提供了一个比较好的理论基础和实验平台.该论文所完成的工作如下:1)充分调研了语音信号处理方法,实现了从语音信号中提取鲁棒的语音特征参数的方法.2)在人脸特征点提取方面,参考Active Appearance Models(AAM)技术【Cootes,l,2,4,Edwards,3,5】,通过较少手工标识样本的训练,系统可以自动的提取预定义的特征点坐标,并生成人脸特征参数矢量.3)通过对隐马尔可夫模型应用技术的大量调研和分析,提出修改隐马尔可夫模型的存储结构以及部分隐马尔可夫模型算法,使之适用于该文开发的系统.4)使用改进的隐马尔可夫模型结构来实现从语音信号构造同步的、有照片真实感的语音动画序列.5)完成了一个基于改进的隐马尔可夫模型的语音驱动人脸动画实验系统,可以对该文的思想进行验证,同时也作为进一步研究工作的实验平台.