论文部分内容阅读
语音信号中不仅包含了语言学的信息,也承载了说话人的个性信息,说话人身份在语音通信中有着重要的作用。说话人转换是语音信号处理研究领域相对较新的一个方向,其目标是改变一个说话人的语音,在保持语义内容不变的情况下,使其听起来像是另外一个说话人的语音。说话人转换的研究对于语音信号处理来说有着重要的理论价值和应用意义。近十几年来,随着基于统计参数模型——高斯混合模型(Gaussian mixture model, GMM)的说话人转换方法的提出,它以其自动化程度高、系统构建快、鲁棒性好、转换语音相似度高、平滑稳定等优点,得到了越来越多的研究者的关注,并逐步发展为当今最主流的一种说话人转换方法。对说话人转换方法性能的优劣的评价有两个方面:与目标说话人的相似度和语音的自然度,现阶段的GMM转换方法在相似度方面的表现还不错,但是转换语音的音质不佳,导致其自然度与自然语音之间存在不小的差距,而且该方法对训练数据有特殊的要求,造成了基于该方法的系统构建的灵活度不足。本文以统计建模在说话人转换的频谱转换中的应用为研究重点,从两个角度来提出改进的方法。第一,模型的角度,一方面,在联合空间的建模中引入独立的线性变换,直接对转换函数建模,另一方面,使用受限玻尔兹曼机(restricted Boltzmann machine, RBM)代替高斯分布对特征空间的建模,改善建模的精度。第二,从特征的角度,使用两种方法分别对语音信号中的说话人信息和内容信息进行建模:基于话者无关空间的内容信息建模和使用深层神经网络的特征分解,直接对说话人信息进行转换,提高了转换的灵活性。整篇文章的安排如下:第一章是绪论,将简介说话人转换的研究范畴、研究意义,回顾该领域研究的发展历史和现状。第二章首先将分析影响语音信号中的说话人特征的因素,并以此展开介绍基于GMM的说话人转换方法,包括GMM的基本原理、系统框架、关键技术点、主要的几种频谱转换方法等,并通过对此方法特点的分析,阐明我们进行新的说话人转换建模方法研究的动机与出发点。第三章将介绍一种改进的联合空间模型,针对传统GMM模型中没有直接对转换关系建模的不足,使用显式特征变换关系来对源目标说话人之间的变换关系建模并对联合空间的概率分布加以限制,改善模型的建模精度,并扩展到非并行数据的训练以改善训练的灵活度。第四章将介绍两种将分别对语音信号中的说话人特征和内容特征的建模方法。第一是使用话者无关模型来描述说话人之间共有的音素空间,使用从该空间到话者相关空间的变换来描述说话人信息。第二是使用深层神经网络直接对语音信号进行高层编码,在编码中提取出说话人特征和内容特征。通过对说话人信息的单独建模,转换时,仅对说话人信息进行转换,提高了转换的灵活度。第五章将介绍一种使用RBM来对联合特征空间的概率分布进行建模,以及使用该模型直接对原始的语音频谱包络转换的方法。在简单的回顾了基于高斯的模型在建模能力上的不足之后,我们提出在传统的GMM建模的框架下,使用RBM来代替高斯分布对每个混合空间的概率分布进行建模并从中导出特征的转换关系,通过实验验证了该方法对转换语音相似度和音质的显著改善。第六章将对全文进行总结。