论文部分内容阅读
说话人语音转换技术是语音信号处理领域中的前沿分支。它通过对一个说话人(源说话人)的语音信号进行修改,在保留其所表达的语义信息的前提下,使修改后的语音信号听起来像另外一个说话人(目的说话人)所说的。说话人语音转换技术对语音分析、语音合成、语音识别及说话人识别等领域都有重大的促进意义。
线性预测是语音处理中广泛应用的分析合成模型。它具有参数计算容易,合成语音质量高等特点。对于说话人语音转换技术而言,其另一显著优势在于它是基于语音产生的嗓音源一声道模型建立的,直接体现了说话人的特征。本文从线性预测所体现的说话人特征着手,通过基音同步的方法对语音进行分析合成,研究了基于该模型的说话人语音转换技术。
在基于音素的说话人语音转换技术中,训练及测试语句都需要进行音素的切分。本文通过提取语音的Mel倒谱系数,采用动态时间归整算法,实现了单音素级的语音切分。
说话人语音转换的关键技术之一是从语音中提取可分析合成的说话人特征。本文将语音中所体现的说话人的生理特征进行转换,而保留源说话人语音的语速、韵律和语义信息。在线性预测分析中,时变的全极点滤波器体现了说话人的声道响应,通过逆滤波得到的嗓音源激励可用LF微分声门波信号表示。本文用线性预测参数表征说话人的声道特征,用LF模型参数表征说话人的声门特征,解决了大多数说话人语音转换方法中仅用基音频率表征浊音音素的说话人嗓音源特征的瓶颈问题。
本文的核心在于转换模型的设计,比较了两种进行参数转换的算法。算法一基于高斯混合模型,通过转换函数,将源说话人的特征参数修改为目的说话人的特征参数。算法二基于隐马可夫模型,通过状态匹配,将源说话人的特征参数映射为目的说话人的特征参数。高斯混合模型具有快速准确拟合参数的特点,隐马可夫模型广泛应用于表示短时平稳过程。本文对这两种算法进行横向比较,指出不存在绝对优异的算法,要在算法性能和实现复杂度两者间折衷考虑。
本文的另一大贡献在于给出了测试说话人语音转换技术的客观与主观方法。
本文通过计算信噪比衡量分析合成的性能,通过比较类内与类间距离衡量统计模型的聚类特性。对于转换后的语音,本文设计了两种听觉测试实验,分别评价语音质量及相似性。