论文部分内容阅读
跨越说话人及语言的语音生成是语音信号处理领域当中的重要研究方向,该问题又可分为两个子问题:1)跨越说话人的语音生成,即语音转换;2)跨越说话人及语言的语音生成,即跨语言语音合成。其中语音转换关注于转换说话人特征,即在不改变文本信息的前提下将源说话人的语音改变为目标说话人的语音使其带有目标说话人的音色和韵律。跨越说话人的语音合成专注于给定目标说话人第一语言语音数据,借助第二语言参照说话人的帮助为目标说话人量身定做第二语言语音合成器。跨越说话人及语言的语音生成在许多领域具有广泛的应用价值及实际需求,然而受限于实际场景中的数据量以及建模方法的性能,目前跨越说话人及语言所合成的语音的自然度及说话人相似度都不能令人满意,离工业界产品的需求还有相当长的距离。本论文针对语音转换及跨语言语音合成两个子问题在技术框架构建、技术改进方面进行了深入而系统的研究。本论文的具体研究内容和研究成果如下。首先,针对有平行训练数据的情况的语音转换场景,本论文对基于神经网络的语音转换训练准则进行了技术分析与改进,提出了最小化序列误差的神经网络训练准则,该训练准则一方面在人工神经网络误差反向传播训练中考虑到了整个序列的信息,另一方面消除了基于神经网络的语音生成回归模型在训练阶段优化目标和测试阶段合成目标不一致的问题。此外本文还利用神经网络将频谱和基频联合转换。实验证明基于最小化序列误差的神经网络训练准则比基于帧误差的训练准则更适合解决语音生成的回归问题。在CMU ARCTIC数据库测试集上对数谱距离(LSD)比基于神经网络的基线系统降低了0.15dB,主观测试中转换后的语音的自然度(60%vs.22%)及说话人的相似度(65%vs.35%)也都比基线系统得到了提高。其次,提出了只利用目标说话人的语音数据的一种基于说话人无关的神经网络声学(SI-DNN)模型及KL散度的完整语音转换技术框架(KLD-DNN)。说话人无关的深度神经网络输出的概率音素空间用来去除源说话人和目标说话人之间的声学差异,KL散度用来衡量不同声学单元在此音素空间的差异。之后根据目标说话人声学单元的不同,1)有监督场景下基于TTS senone;2)无监督场景下基于音素类;3)无监督场景下基于语音帧;采用了了不同的声学轨迹平滑后处理方法。实验证明基于说话人无关的神经网络及KL散度的语音转换技术框架显著超越了需要上述平行训练数据的基于神经网络回归模型的系统。在CMU ARCTIC数据库测试集上LSD比基于序列误差的神经网络语音转换模型降低了0.5dB。在主观测试中,语音自然度(91%vs.6%)及说话人相似度(88%vs.7%)两项指标显著超越了上述基于序列误差的神经网络模型的系统。第三,基于前面提出的利用说话人无关的深度神经网络去除源说话人和目标说话人之间的声学差异的思想,提出了在音素空间中单元帧拼接并利用WaveNet声码器合成语音的框架。WaveNet声码器不再依赖语音生成机制(如源-滤波器模型)的任何假设,而是利用卷积神经网络直接为语音采样点序列建模。实验证明,基于音素空间中的单元帧拼接及WaveNet框架方法在CMU ARCTIC数据库上对比上述基于KLD-DNN的方法在主观测试中取得了显著的进步,语音自然度(80%vs.7%)和说话人相似度(76%vs.8%)均获得了更高的偏好度。最后,提出了基于说话人无关的神经网络声学模型及KL散度跨语言语音合成技术框架,基于不同语言的语音在次音素或帧级别上在一定程度上可以部分共享同一音素空间的前提假设,利用第一语言训练出来的深度神经网络声学模型消除目标说话人第一语言语音及参照说话人第二语言语音的声学差异。在有监督情况下利用最小化KL散度对目标说话人第一语言决策树模型的叶节点及参照说话人第二语言决策树模型的叶节点进行一一映射;在无监督情况下,利用基于KL散度的权值和目标说话人第一语言语音数据对参照说话人的第二语言决策树模型的叶节点进行填充,从而得到目标说话人第二语言的决策树模型,实现跨越说话人及语言的语音生成。实验证明此方法比之前基于轨迹拼接的基线系统取得了显著的进步。测试集的对数谱距离(LSD)显著下降了0.89dB,主观测试中说话人相似度DMOS分比基线系统提升了0.6分(2.9分->3.5分)。本文层层递进提出了三种语音转换的方法:1)基于序列误差最小化的神经网络;2)基于KL散度和DNN的语音转换;3)基于单元帧拼接及WaveNet的语音转换。分别有效地解决了1)语音转换神经网路训练目标与测试目标不一致;2)如何有效去除不同说话人之间的声学差异;3)传统声码器合成转换语音自然度差这三个问题。三种方法较基线系统逐步地显著提升了语音转换后的语音自然度和说话人相似度。之后又提出了基于KL散度和DNN的跨语言语音合成,解决了跨语音合成不同语言之间如何消除声学差异的问题,显著提升了跨语言语音合成系统合成语音的说话人相似度。