论文部分内容阅读
语音转换是指改变一个人(源说话人)的语音个性特征使之具备另一个人(目标说话人)的语音个性特征,从而使源说话人的语音听起来像目标说话人的语音的一种语音处理技术。随着现代生活水平的提高,人们不再单单追求语音的可懂度,而更加强调语音的个性化特征,因此,该技术的研究不仅具有重要的理论意义,同时也具有巨大的应用价值,正逐渐成为语音处理领域的研究热点之一。
本文首先对语音发音系统和模型、语音转换技术的基本理论和方法、常用的语音特征参数进行了讨论;接着研究了基于典型相关分析(CCA)的语音谱包络转换算法,这是一种统计分析方法,能够很好地描述两个多维向量空间的线性相关信息,并使用高斯混合模型(GMM)对该空间进行建模。在对典型相关分析(CCA)进行研究的基础上,提出并实现了一种基于CCA的语音转换系统,在基音频率处理方面,对基于频率插值的方法上提出了改进,通过增加高斯分量数提高瞬时基音参数的准确度,使得预测的基音频率轨迹更接近目标说话人的基音频率轨迹。最后将基于CCA的谱包络转换算法与传统的基于均方误差估计(MMSE)的转换算法进行对比,从客观和主观两个方面对系统的性能进行了评价。实验结果表示,该算法的转换效果优于基于MMSE的转换算法。