论文部分内容阅读
与语音对应的口型可视化技术是现在语音可视化领域的热点和难点问题之一。目前该技术仍存在以下三个问题亟待解决:第一,在表达口型动画的嘴部模型中,多数研究者没有考虑舌头部位的运动模拟;第二,在协同发音现象中,音素静态视位受其他音素影响后存在一定的变化规律,但大多数研究者缺乏将该规律与协同发音模型中的视位权重控制函数曲线的几何特性相关联,在部分字的口型动画上存在着较明显不真实的现象;第三,在动画插补算法中,大多数研究者采用线性、三角函数作为过渡帧插值函数,虽然能满足过渡效果平滑的效果,但存在一定的局限性,中间过渡帧过多,口型动画不能突出关键帧。针对以上问题,以及可视化语音以及虚拟说话人系统中对唇部和舌部动画的高逼真度要求,本文首先提出了一种基于运动轨迹分析的三维唇舌肌肉控制模型。该方法首先根据解剖学原理,建立起基于网格和纹理的唇部、舌部模型。然后,根据分析唇部的运动轨迹,将口轮匝肌分解成两部分来联合控制唇部的运动,可以获得各种口型。在舌部的运动模拟中,将它的运动轨迹分解成一些机械运动的组合,通过使用四种肌肉模型来控制这些运动。最终实现了人脸嘴部说话时的各种口型,实现了卷舌、舔嘴等动作。实验结果表明,该方法能逼真地实现出唇部、舌部的运动动画。然后,针对汉语中的协同发音现象以及语音可视化技术中对唇型动画自然、连续的要求,采用了一种新的口型动画生成方法。一方面,本文在协同发音建模中,采用了基于微分几何学描述的多音素协同发音模型,该模型通过分析邻近音素间影响关系的几何学上的特征,充分描述出音节中的多个音素之间的重叠发音现象,能使得虚拟人口型动画更贴近现实。另一方面,本文在口型动画的自适应生成中,采用了基于分段抛物线插值生成过渡帧的方法,解决了口型动画中关键帧显示时间过短、用户不易分辨的问题,且还不影响口型动画的流畅性。