论文部分内容阅读
语音合成(speech synthesis)是指将文字转化为语音的一类技术,是实现人机语音交互系统的核心技术之一。而可视语音合成(visual speech synthesis)是指将输入特征(文本或者语音)转化为人脸动画以实现多模态人机语音交互的技术。隐马尔可夫模型(hidden Markov model,HMM)在语音合成和可视语音合成中有着广泛的应用,但由于HMM假设特征是可以聚类的,导致其不能精准地表征特征空间,生成的特征参数过于平滑,为了解决这些问题,本文选用神经网络作为统计模型并将其成功地应用于语音合成与可视语音合成中。首先,本文详细介绍了基于神经网络的语音合成系统。通过对神经网络基本原理的研究,本文实现了基于深度神经网络(deep neural network,DNN)以及递归神经网络(recurrent neural network,RNN)的语音合成系统,基线系统为基于HMM的语音合成系统。主客观实验结果说明和基线系统相比,基于神经网络的语音合成系统效果更好,尤其是RNN,由于其本质就是一个序列学习器,因此在三个系统中效果最好。其次,本文提出了一种高质量的语音合成框架。传统的统计参数语音合成(statistical parametric speech synthesis,SPSS)一般会通过一个声码器来从时域的语音信号中提取语音特征,提取出的特征也可以通过声码器重构语音信号。绝大多数声码器都使用最小相位的假设,由于最小相位是真实相位的简化,因此会导致语音音质的很大失真。为了得到高音质的语音合成效果,本文提出了一种考虑相位的波形表示框架,该框架需要统计模型对幅度谱和相位谱进行联合建模,合成的语音音质有明显的提高,实验分析也证明了所提出方法的有效性。最后,本文提出一种基于神经网络的可视语音合成系统。我们使用主动表观模型(active appearance model,AAM)来对人脸图像进行建模,解决了难以直接对人脸图像进行建模的问题。通过统计模型可以学习输入特征(文本、语音或两者的结合)与AAM参数之间的关系,统计模型选用HMM以及RNN并对两者的效果进行了实验对比分析。统计模型使得预测得到的视觉参数过于平滑,合成的人脸动画存在模糊的问题,因此我们使用轨迹指导单元选择拼接的方法来从真实的图像数据库中选取最优的序列,解决了这一问题。主客观实验也证明了所提方法的有效性。