论文部分内容阅读
说话人转换是语音信号处理领域中一个前沿的研究分支。说话人转换就是对一个说话人(源说话人)的语音信号进行修改,在保留语音信号所表达的语义信息的前提下,使得修改后的语音信号听起来像另外一个说话人(目的说话人)所说的。说话人转换对语音分析、语音编码、文语转换、说话人识别和语音识别等领域都有重大的促进意义。语音处理中广泛使用的正弦+噪声模型具有易于参数修改、合成音质高的特点。该模型通过参数修改的方法,能够较为方便地对语音信号各种特征的进行修改。本文从正弦模型参数所体现的说话人特征着手,基于统计的方法,研究了基于正弦+噪声模型的说话人转换的方法,并将研究结果应用到语音识别中的说话人适应领域,引入了基于说话人转换的语音识别方法。说话人转换的关键之处是从语音信号中提取可分析合成的说话人特征。本文利用正弦+噪声的语音分析模型,进行说话人特征的基础性研究。结合统计分析的方法,着重分析了正弦模型中频率参数概率分布(FPD)和幅度参数加权的频率概率分布(awFPD)。在观察总结的基础上得出了一个实验结论:在有足够观察数据进行分析的情况下,频率概率分布和说话人有关,和语音内容和使用的语言种类相关性不大。通过应用混合高斯模型进行概率分布的拟合,本文提出了统计本征声音(SEV)和加权统计本征声音(wSEV)的说话人特征表示方法。SEV和wSEV描述了说话人发音器官特征、说话特点和发音喜好等固有的特征。在说话人统计特征的研究基础上,本文提出了基于统计本征声音SEV和加权统计本征声音wSEV的说话人转换方法。该方法使用SEV特征进行说话人频率转换,使用wSEV进行说话人频谱幅度转换,并且训练过程无需使用源说话人和目的说话人的相同语音样本。这种方法在跨语种说话人转换上有进一步应用的空间。基于SEV和wSEV的转换方法结合起来间接的修改了语言信号的基音频率和谱包络等声学特征。在合成结果自然度上,本文算法优于LPC声码器的说话人转换方法。在语音识别领域,与说话人无关(SI)的识别方法需要大量的训练数据。大量数据的采集和识别率的不稳定制约了其应用。传统的与说话人相关(SD)的识别方法则通过说话人适应方法,在减少训练数据的同时提高识别正确率和鲁棒性。但是SD识别方法在识别模型参数较多时,效率偏低,适应过程缓慢。为了克服这些缺点,本文将说话人转换应用于语音识别中,引入了基于说话人转换的语音识别方法。该方法在进行识别前先对输入的语音进行说话人转换,