论文部分内容阅读
基于SVTTS架构的语音克隆系统采用d-vector描述说话人编码特征,由于该特征提取过程中没有考虑到整段句子的语音信息,从而影响了克隆语音的相似度。针对此问题,提出一种基于x-vector说话人特征的语音克隆方法。该方法采用x-vector作为表征目标说话人的嵌入向量,拼接到合成器中,并通过声码器克隆出目标说话人的语音。实验结果表明采用x-vector的方法提取嵌入向量的相似度更高;与传统方法相比,该方法克隆语音的自然度和相似性分别提升了0.32和0.14。