论文部分内容阅读
说话人转换是通过将一个说话人(源说话人)的语音个性特征转换成另一个说话人(目标说话人)的语音个性特征,而保持说话内容和情感特征不变的一门技术。经过转换后得到的声音要听起来像目标说话人的声音,同时保持源说话人的说话内容及情感特征不变。该技术具有重要的理论研究价值和良好的应用前景。本文主要围绕说话人转换中的基频轨迹转换和频谱包络参数转换这两项关键技术进行研究,主要工作和创新如下:(1)对目前已有的基频轨迹转换算法进行实验研究比较,发现目前的转换算法大多是简单的线性变换,而事实上两个说话人之间的基频轨迹是非线性映射关系。针对传统转换算法存在的问题(采用线性变换实现基频转换),提出基于RBF神经网络的基频轨迹转换算法,通过将基频轨迹分成等长的数据段,再分别对其进行建模,找出源和目标之间的映射规则,从而实现基频轨迹的转换。主客观测试表明:该算法既提高了特征参数转换的精确性,也增强了合成语音的自然度。(2)传统的说话人转换算法都是将音段信息参数和超音段信息参数独立开来,分别进行转换,最后再一起合成转换语音。而越来越多的研究表明,两者之间隐藏着很大的关联性,可以从一个参数中提取出另一个参数的信息,将其独立开来分别转换的方法,势必会破坏两者之间的联系,影响转换后的效果。针对这一问题,提出将频谱信息参数和基音频率参数结合起来,组成短时联合谱参数,一起作为特征参数进行训练和转换。实验证明:改进后的转换效果均优于同等条件下的传统算法。(3)通过对传统神经网络用于说话人转换算法的研究,发现影响神经网络转换效果的关键因素是隐含层的中心值和权值矩阵。对求解关键因素的算法加以改进,增强转换的精确性,势必会有效提高神经网络的转换效果,基于这样的分析,提出利用量子遗传算法优化神经网络,进而实现说话人转换。主客观实验的测试结果表明:基于改进算法得到的转换语音既提高了与目标语音之间的相似度,也增强了合成语音的清晰度。