论文部分内容阅读
语音转换技术是当前语音信号处理领域的研究热点之一,其在人机交互、语音修复、影视配音、语音伪装和保密通信等方面有着广泛的应用。目前语音转换的研究主要集中在频谱包络和韵律特征等的转换上,但在对其的转换上还未达到好的效果。本文在研究分析现有语音转换算法的基础上,设计构建了基于高斯混合模型GMM和BP神经网络的语音转换系统,并完成了算法仿真和语音转换系统实现。最后采用客观评价和主观评价方法对系统进行了性能评价。本文主要研究内容如下:(1)在分析语音转换的基本原理、语音的时域特性、语音的个性特征参数和语音转换算法的基础上,选取了语音信号的频谱包络及其残差和基音周期作为语音转换的特征参数,选用了GMM模型和BP网络模型进行训练和转换。设计了基于GMM和BP网络的语音转换系统总体框架。(2)完成了源和目标说话人谱包络LPC系数及频谱包络残差的提取,在研究GMM模型基本原理的基础上,用EM算法和K-Means算法对GMM模型的初始参数进行估计,利用估计的初始参数对提取的LPC参数进行GMM模型训练,得到其映射函数,并据此对源语音的LPC系数进行转换,仿真分析了基于GMM模型谱包络的源、目标和转换后语音的时域波形和语谱图。(3)采用GMM模型完成了对源和目标语音谱包络残差的训练,得到了源和目标语音残差码本的映射关系,并通过映射关系对源语音的残差进行了转换,仿真分析了基于GMM模型残差的源、目标和转换后语音的时域波形和语谱图。(4)在分析讨论BP网络基本原理和算法的基础上,完成了源和目标说话人的基音周期的训练,通过训练网络实现了源与目标说话人的基音周期的转换,并仿真分析了源、目标和转换后的时域波形与语谱图。(5)完成了GMM和BP网络两种模型相结合后分别对说话人语音的频谱包络LSF参数、频谱包络残差和基音周期三种特征参数的训练和转换,仿真分析了转换前后的时域波形和语谱图;并完成了基于GMM和BP网络的语音转换系统功能设计及系统实现,采用客观评价和主观评价的方法对系统中四种转换方法模型进行了性能评估,比较得到基于GMM和BP网络语音转换方法的优越性。