论文部分内容阅读
基于神经网络的语音转换利用其特殊的非线性方程转换式将源说话人的特征映射为目标说话人的特征,这种方法被证实比基于高斯混合模型语音转换方法更加有效。然而,基于神经网络的语音转换还有诸多不足。例如目前神经网络的训练是基于最小化帧误差准则的,因此神经网络相应的权值是根据整个的源说话人和目标说话人的训练数据来进行调整的。在本文中,我们受启发于基于隐马尔科夫模型(HMM)的语音合成体系中的基于整句优化最小化生成误差的训练准则,将语音转换中神经网络训练的基于帧误差最小化的训练准则改为基于序列误差最小化的训练准则。我们利用基于梯度下降的反向传播算法来最小化一句训练数据上源说话人和目标说话人之间的转换误差。实验结果表明通过先用最小化帧误差准则训练,再用最小化序列误差训练的神经网络比起只用最小化帧误差训练的神经网络转换出来的声音在主观测试中更胜一筹。在目前的语音转换中,韵律转换尤其是基频转换是一个很具有挑战性的研究课题,这主要是因为基频的不连续性。通常基频转换都是通过改变源说话人基频分布的均值和方差到目标说话人分布上去。这种方法抹除了说话人韵律的细节信息只保留的基频的整体轮廓。在本文中,我们将基频和谱特征一同在神经网络中进行转换。从实验结果上来看比起高斯归一化的方式,通过神经网络的转换可以大幅减少转换语音和目标语音之间的清音/浊音误差及基频均方根误差。将基频进行小波分解后可以进一步提高转换结果。