论文部分内容阅读
声音转换按照目不同可分为两类:一类为非特定人声音转换,只要将原话者的声音变掉即可;另一类为源一目标说话人声音转换,是要将原话者的声音变成特定目标话者的声音。针对不同目的的声音转换,本文在语音线性预测分析及LPC合成器的基础上,着重研究了基于基频的非特定人声音转换以及源一目标说话人声音转换中的声道参数转换。
对说话人的非特定人声音转换,可以通过控制LPC合成器中的基频参数来实现。对基频的适当改变可以引起说话人声音模式的改变,但其改变也会引起原语音谱包络的变化,从而可能引起语义失真。本文通过主观听辨和客观谱失真相结合的办法,在基频平移或缩放两种改变方法下,由实验按经验获得适合大多数人的、既引起转换后语音的声音模式改变、同时语义不失真的基频改变范围,以此范围指导基于基频的非特定人声音转换。
源一目标说话人声道参数转换是实现源一目标说话人声音转换的关键。通常采取分类获取转换规则的策略,即同一类的参数共享一个规则。显然,分类数越多,转换规则越多,转换效果越好。为了在一定的分类数下能获取尽可能多的转换规则,本文采用基于径向基函数网络(RBFNN)的分类线性加权转换方法,以输入特征矢量对各个类别(隐层节点)的“贡献”作为各子类转换规则的权值,转换后的特征矢量为各子类输出的加权,可以获得远大于分类数的转换规则。针对通常采用FCM算法训练网络隐层节点中心欠准确、影响最终声道转换效果的问题,本文给出改进的差分进化FCM算法来获得更优化的隐层节点中心,并通过对比实验表明使用改进的算法训练中心,最终可在较大程度上提高源一目标话者声道参数转换性能。本文还对转换规则和训练集大小的关系展开相应的实验研究。