论文部分内容阅读
随着语音合成技术的日益成熟,一方面使其在人们的生活中得到了越来越广泛的应用,而另一方面也使人们对语音合成系统的要求越来越高。基于隐马尔可夫模型(HMM)的统计参数语音合成合成技术因为其较优秀的合成效果,且便于通过对模型参数的调整达到声音转换的目的成为了目前最受关注的方法之一。然而HMM合成声音仍然存在声音过于平滑,沉闷,缺乏细节,自然度不高等等影响音质的问题需要解决。本文为了提高基于HMM的语音合成的音质,用少量的数据,从参数转换的角度,运用深度神经网络(DNN)对不同的参数进行训练得到转换模型,重新合成达到提升合成音质的效果。(1)针对神经网络的隐藏层数、结构等都会对深度学习的结果造成不同的影响从而影响DNN的构建,本文比较了在不同参数、结构的条件下,用DNN进行静音/清音/浊音(S/U/V)的判别效果,以此探讨不同的结构和参数对于DNN训练的影响,并实验证明了DNN判别S/U/V的有效性。(2)本文指出HTS自然度的下降主要是由于合成语音中频谱的细节部分由于基于统计参数的训练而丢失,尝试了从参数转换的角度,用DNN对HMM合成系统的合成语音谱参向原始语音进行转换。通过对各个发音基元找到原语料和合成语料的对应的平行语料,提取出其中相近的部分参数作为DNN对应的输入层和输出层节点的数据,训练出以发音基元为单位的DNN,通过这些网络进行合成语音的参数转换,对比原合成语音证明,用DNN对合成频谱参数进行转换能够提高合成语音的自然度。(3)为了进一步提高音质,改善合成效果,本文探讨了对暂时分解(TD)算法得到的参数进行转换的方案。暂时分解得到的语音的事件函数影响语音本身的可懂度,事件向量影响语音本身的自然度。由于HMM在可懂度上已经不错,因此本文尝试对TD分解得到的事件向量进行DNN训练建立转换模型并同未转换的事件函数进行再合成。实验证明,用DNN转换合成后的频谱更接近原始频谱,主观评测也表明,用该方法能有效地改善合成语音的音质。