论文部分内容阅读
在语音合成领域为实现说话人之间的转换,通常使用基于隐马尔可夫模型的最大似然线性回归(MLLR)方法,该方法和源说话人与目标说话人相似程度,及自适应数据多少有非常大关系。在只有1~5句极少量数据时MLLR自适应效果就比较差,为了改善此时的自适应效果,我们将基于EigenVoice 思想的模型自适应方法应用到语音合成的说话人转换中。其主要方法是对多个话者模型共享决策树聚类,做主成分分析提取特征模型,使用最大似然准则求解模型权值和加权累加,得到自适应以后的模型进行文本相关的合成。本文通过该自适应方法的合成语音与MLLR自适应合成语音的主客观对比实验,显示了该方法在数据少时能够有效地降低转换后合成语音与相应自然语音之间的误差, 提升自适应效果,并在此基础上分析其局限性和改进思路等。