论文部分内容阅读
语音转换是保存某一个说话人(源说话人)的内容不变,同时把说话特征向指定的一个说话人(目标说话人)进行转换。而对于语音的转换在许多方面已经有相应的应用,因而对语音的转换效果的要求也是越来越高。在语音转换中效果较好的方法有高斯混合模型(Gaussian Mixture Model,GMM)。虽然该方法比其它方法效果更好,但是该方法的效果还达不到另人满意的程度。因此,对现有的语音转换方法的效果进行改进显得尤为重要。本文主要任务是改善转换语音的质量与目标倾向性,在讨论和研究该基本算法的基础上,对语音转换中的训练部分与转换部分进行了相应的改进。具体的工作与创新如下:1.本文对发声的声道模型、各种语音转换技术、GMM、基频转换、特征提取和评价方法等方面进行了研究。在此基础上实现了基于GMM的语音转换系统。同时,在该语音转换上提出了对时间对齐部分的两点改进。这两点改进是语音首尾有声端点检测与改进的动态时间规划(Improved Dynamic Time Warping,IDTW)。最终实验结果表明,该基于GMM的语音转换系统可以把源语音的特征向目标语音的特征进行转换。2.传统方法的转换部分都是逐帧进行转换的,这种方法很容易导致相邻帧之间的信息缺失。针对信息缺失的问题,文中加入相邻特征(Adjacent Feature,AF)的改进。最终增加了相邻帧之间的关联性并提高了转换语音的自然度。3.语音是时变且非平稳的,传统的语音转换的准确性较差。针对特征参数转换准确性问题,本文在对所有数据先使用K-means进行聚类后再对每个分类里的数据分别进行训练与转换。该算法的改进使特征的转换更有针对性并得到了倾向性更好的转换语音。4.为了使转换语音的自然度与目标倾向性同时得到提升,文章在原语音转换方法上同时使用相邻特征与聚类进行改进。这种结合的方法同时继承了两种改进方法的优点并最终使转换语音的自然度与目标倾向性同时得到了提升。