论文部分内容阅读
深度学习的蓬勃发展极大地推动了语音合成声学建模技术的革新。本文以深度学习技术为理论基础,对语音合成声学建模技术进行了深入的研究和探索。语音合成技术正在经历从管道式框架到端到端框架的转变,不管是管道式语音合成还是端到端语音合成,声学模型都占有举足轻重的作用。本文重点关注管道式语音合成和端到端语音合成两种系统框架下的模型设计与改进,同时探索更为有效的声学模型训练策略。本文沿着声学模型的改进与简化、训练方法的改进与优化和系统框架改进的思路展开研究。主要创新成果如下: 1.在管道式语音合成框架上,以提高声学建模的精度为研究目标,提出了一种集门控循环网络与混合密度模型于一体的深度混合密度网络,称之为门控循环混合密度网络(Gated Recurrent Mixture Density Network,GRMDN)。GRMDN结合了门控循环网络建模长时依赖性的能力和混合密度模型能完备地描述目标数据的条件概率密度的优势,是一个通用的条件序列生成器。因此,GRMDN很适合应用于序列生成任务,比如本文所研究的声学建模任务。一方面,GRMDN利用门控循环结构的长时建模能力充分捕捉语言学输入的长期依赖性;另一方面,GRMDN利用混合密度模型完备地建模声学特征的多模态属性,生成具有丰富变化性的声学特征。与单一的基线系统相比,基于GRMDN的声学模型能合成自然度更高、变化性更丰富的语音。 2.在管道式语音合成框架上,以提高声学建模的精度、缓解参数生成时的过度平滑效应为研究目标,提出了一种结合单向长短时记忆(Unidirectional Long-Short Term Memory,ULSTM)和卷积输出层(Convolutional Output Layer,COL)的高性能声学结构,简记为ULSTM-COL。其中卷积输出层采用非对称上采样卷积实现。这种“高性能”体现在以下三个方面:1)建模能力强。单向LSTM与非对称卷积输出层作用互补,建模能力显著超过同样配置的基于单向LSTM和双向LSTM的声学模型;2)缓解语音参数生成时的过度平滑效应。建模时不再需要动态差分特征,因为上采样卷积输出层作为语音参数轨迹生成器能起到很好的参数平滑作用,因此不再需要最大似然参数生成(Maximum Likelihood Parameter Generation,MLPG)平滑算法;3)低延迟。一方面避开了MLPG算法的使用,简化了合成流程;另一方面,单向LSTM和卷积输出层都是单向结构,保证了ULSTM-COL可以方便地应用到低延迟的实时合成系统。实验证明,ULSTM-COL可以显著提高声学模型的性能,合成自然度更高的语音。 3.在管道式语音合成框架上,提出使用无监督生成式对抗网络(Generative Adversarial Network,GAN)来进一步改善管道式语音合成中的过度平滑问题,分别从对抗语音参数后滤波和对抗声学建模两个方面进行了研究。GAN无需对语音参数的条件分布做任何假设,利用无监督对抗训练的方式驱使模型生成更接近自然分布的语音参数轨迹,从而提高合成的感知自然度。实验主观、客观评价都证明了对抗学习的有效性,相比有监督训练的声学模型具有更好的合成质量。 4.以端到端语音合成技术为研究目标,提出了一种中文普通话端到端语音合成方法。该方法使用带有关注机制的编码器-解码器框架来实现端到端语音合成系统,端到端系统同时集成了管道式语音合成系统中的韵律预测模型、时长模型和声学模型,隐式地学习输入序列中的韵律模式,不仅能简化现有的管道式语音合成框架,而且能减少对数据标注的依赖。具体地,所提出的端到端模型直接采用中文带调拼音序列作为输入,生成相应的短时傅里叶变换幅度谱序列,最后使用Griffin-Lim算法合成语音。本文所提出的端到端方法在主观评测中可实现均值意见得分(Mean Opinion Score,MOS)3.81,合成自然度超过了内部最佳的管道式语音合成系统。在此基础上,本文进一步研究了多说话人端到端语音合成技术以及说话人自适应技术,所提出的方法不仅可以合成集内每个说话人的音色及说话风格,而且只需要集外说话人的少量数据便能合成可接受质量的语音,提供了一种快速、简便地构建语音合成系统的可能性。