论文部分内容阅读
语音转换的目的旨在改变源说话人的语音,使其听起来像目标说话人,同时保持语言内容信息不变。在过去的几十年里,语音转换的技术发展迅速,并逐渐成为语音处理领域研究的一个热门话题,广泛应用于个性化语音合成、说话人去识别化以及电影游戏配音等方面。深度学习技术的出现,极大程度地推动了语音转换技术的进步,为平行语音转换和非平行语音转换的研究开辟了新的方向。深度学习技术允许语音转换模型利用更大的训练数据,以提高生成语音的质量及其与目标说话人的相似度。然而,在现有的应用于语音转换的深度学习方法中,依然存在着一些未解决的问题。深度神经网络的训练通常依赖于大量的训练数据,而在语音转换的实际应用中,往往很难收集到来自源说话人和目标说话人的大量数据,这就会在神经网络训练时造成由有限数据引起的过拟合和过平滑的问题。研究开发新的语音转换方法,克服现有技术的局限性,在有限的训练数据条件下,保持深度学习系统的高质量、高性能,正是该领域所亟待研究的课题。针对前文所述问题,本文主要研究了在有限的训练数据条件下,如何利用深度学习的方法完成高质量的语音转换任务。本文的主要任务和创新点如下:1、提出了应用于DBLSTM语音转换系统的误差削减网络。许多用于语音转换的深度学习方法都是通过使用大量的训练数据来生成高质量的语音。本文提出了一种基于DBLSTM的语音转换框架,该框架可用于有限数量的训练数据。所提出的语音转换框架基于以下三个观察动机:1)DBLSTM可以考虑到语音发声的长时依赖性,实现高质量的语音转换。2)基于DBLSTM的平均模型可以很容易地利用少量数据进行自适应训练,以生成更接近于目标说话人的语音。3)误差削减网络仅需要利用少量的训练数据来训练,就能有效地提高转换质量。实验表明,所提出的语音转换框架可以灵活地处理有限的训练数据,并且在客观和主观评估方面均优于传统框架。2、提出了DeepConversion,少量平行数据下的语音转换。研究了一种新的语音转换框架Deep Conversion,该框架利用了大量的非平行多说话人数据,以及少量的平行训练数据。通过在大量公共可用的、非平行的、多说话人的语音数据上训练得到说话人独立的通用模型,可以表征不同说话人的共有特征。利用这种通用模型,可以更有效地从有限数量的平行训练数据中学习源说话者和目标说话者之间的映射。除此之外我们还提出了一种策略,使得框架中的所有模型都能充分地利用有限的平行数据。实验表明,在客观和主观评估中,仅使用有限数量的平行训练数据的Deep Conversion始终优于使用大量平行训练数据的传统方法。3、提出了采用多源Tacotron和WaveNet的语音合成-语音转换联合训练框架。研究了一种语音合成和语音转换任务共享模型的联合训练方法,所提出的系统是一个具有双注意力机制的多源序列到序列编解码器模型。作为语音合成和语音转换任务的共享模型,该模型可以根据输入类型的不同分别完成这两个不同的任务。当模型的输入为文本序列时,进行端到端语音合成任务。而当给出源说话人的语音作为输入时,进行序列到序列语音转换任务。最终语音时域波形的生成是通过Wave Net声码器来完成的,Wave Net声码器使用预测得到的梅尔谱频谱来作为输入生成语音信号。我们将模型的解码器作为一个共享模型进行联合训练,使其同时支持文本和语音的多源输入。听力测试结果表明,我们提出的多源编解码器模型可以同时有效地完成语音合成和语音转换的任务。4、提出了从语音合成到非平行语音转换的迁移学习。本文研究了一种新的从语音合成中学习构建语音转换系统的方法,称为TTS-VC迁移学习方法。利用语音合成系统将输入文本映射到一个说话人独立的上下文向量,并重新利用这种映射来监督编解码器语音转换系统中隐含表示的训练。在语音转换系统中,编码器以语音作为输入而非文本,而解码器在功能上和语音合成解码器相类似。由于解码器将说话人嵌入作为额外输入,该系统可以在非平行数据上进行训练以实现任意对任意的语音转换。在系统训练时,我们同时使用文本和语音来分别作为语音合成和语音转换的输入来训练两个模型。而实际运行时,语音转换网络仅使用自身的编解码网络体系,即仅将语音作为输入而不需要文本的额外输入。实验表明,所提出的方法在语音质量、自然度和说话人相似度上均始终由于两个基线系统——基于PPG的方法和AutoVC的方法。