论文部分内容阅读
语言是人类交流信息最基本、最便捷的方式,文字和语音都是描述语言的最有效的工具。语音合成技术就是用语音信号处理方法,将用户的文字信息转换成可以听得懂的、流畅的语音输出,它在人机交互、智能终端、文本阅读、语音播报、车载导航等领域具有广泛的应用。在基于深度神经网络(Deep Neural Network,DNN)的语音合成技术中,DNN模型建立了语言特征到声学特征之间的映射。由于DNN模型的局限性,语言特征和声学特征每帧之间都是相互独立的,难以反映出整个句子的全局特征,从而影响合成语音的质量。为了生成平滑的语音参数轨迹,所用的声学特征既包括静态特征,也包括动态特征(即声学特征对时间的一阶、二阶导数),这样在预测出声学特征后,使用语音参数生成算法即可生成平滑的语音参数轨迹,但是该方法要使用整个句子中所有帧的统计特性,从而产生较高的延时。为了解决上述问题,本文研究了基于深度神经网络的语音合成方法,所做的主要工作如下:(1)提出了一种考虑全局方差(Global Variance,GV)的DNN语音合成方法。该方法在训练阶段,先对文本数据进行前端处理,构建语言特征,并提取状态持续时间特征;然后对语音数据进行处理,提取声学特征,并根据声学特征提取GV特征。对于状态持续时间模型,其输入为语言特征,输出为状态持续时间特征;对于GV模型,其输入为句子级别的语言特征,输出为GV特征;对于声学模型,其输入为结合GV的语言特征,输出为声学特征;回归模型采用DNN模型。在合成阶段,待合成文本先通过前端处理来构建语言特征;然后将其输入到状态持续时间模型和GV模型,分别生成状态持续时间特征和GV特征;接着,根据状态持续时间对编码后的语言特征进行上采样,再根据GV特征生成结合GV的语言特征,并将其输入到声学模型,以生成声学特征;最后将声学特征送入声码器,即可合成语音。文中给出了实验结果。(2)改进了一种基于长短时记忆(Long Short-Term Memory,LSTM)网络的低延时语音合成方法。在该方法中,仅用静态特征作为声学特征,以降低语音合成的延时;用LSTM网络构建深度网络的循环输出层,并将其作为可训练的语音参数平滑器,以生成平滑的语音参数轨迹。在语音合成时,持续时间预测、声学特征预测以及声码器均以流的方式执行,以实现低延时的语音合成。文中给出了实验结果。