论文部分内容阅读
语音转换是语音信号处理领域的一个重要分支,其目的是保持说话人语音的语义信息不变,只改变说话人的个性特征,源说话人语音经过转换后其个性特征更接近目标说话人的个性特征。传统的语音转换方法大多采用平行语料联合训练源-目标说话人的语音模型并由此推导出相应的语音转换函数,但在实际应用中难以获得完全平行的语料,而且训练联合说话人语音模型的计算量大,在多说话人之间进行语音转换时系统繁杂。本课题针对非平行语料非联合训练条件下的语音转换,提出一种基于倒谱本征空间结构化高斯混合模型的方法。首先提取说话人语音的倒谱特征参数,然后根据其散布矩阵计算本征向量构造倒谱本征空间并训练结构化高斯混合模型(SGMM-ES,Structured Gaussian Mixture Model in Eigen Space)。源和目标说话人各自独立训练的SGMM-ES根据全局声学结构(AUS, Acoustical Universal Structure)原理进行匹配对准,最终得到基于倒谱本征空间的短时谱转换函数。主客观实验结果以及表明SGMM-ES语音转换系统的转换性能非常接近于传统平行语料的方法。这一结果说明采用倒谱本征空间结构化高斯混合模型进行非平行语料条件下的语音转换是有效的。本课题的研究内容主要包括以下几个方面:(1)、研究了语音产生的基本原理以及数学模型,对语音的个性特征参数进行了详细的分析,并基于STRAIGHT构成语音分析-合成平台。(2)、搭建了平行语料联合训练条件下基于GMM模型的语音转换平台作为基准系统,并具体分析了传统语音转换方法存在的问题。(3)、深入研究了语音的全局声学结构原理,提出了说话人倒谱本征空间结构化高斯混合模型(SGMM-ES)及其具体实现算法。(4)、在非平行语料非联合训练的条件下,实现了基于倒谱本征空间结构化高斯混合模型的语音转换系统。(5)、对GMM、SGMM、SGMM-ES三种方法得到的转换语音进行了主客观实验评测,并作了详细的分析,以验证本论文提出方法的有效性。