论文部分内容阅读
说话人识别是根据语音信号中的说话人个性信息来识别说话人身份的一项生物特征识别技术。随着技术发展,说话人识别系统现已取得了不俗的性能表现。然而,受各种不确定性(如非限定文本、跨信道、环境噪音、说话方式等)的制约,当前说话人识别系统仍难言可靠。为此,本文聚焦在说话人识别中的特征学习方法研究,利用深度学习方法从语音信号中学习与说话人相关的特征、削弱与说话人无关的不确定性,以此提高说话人识别系统的性能。本文的主要贡献如下:一、提出了基于卷积-时延深度神经网络的说话人特征学习方法。从语音信号的基本特性出发,结合说话人信息在语音信号中的表征形式,针对语音信号的局部属性、动态属性和模型的可训练性,设计了一个由卷积、时延和组归一化所构成的卷积-时延深度神经网络(CT-DNN)模型,用于说话人特征学习。通过定性和定量分析,验证了所学到的说话人特征具有较强的说话人区分性。二、验证了说话人特征学习的推广性。考虑到说话人特征学习的训练目标是最大化区分不同说话人,而并不是直接针对说话人识别任务。为此,本文从多个角度设计了不同的推广性研究方案,验证了所学到的说话人特征在不同说话人识别任务中的通用性和普适性,证明了说话人特征学习的推广性。三、提出了基于全信息训练的说话人特征学习方法。考虑到说话人特征学习的训练目标只关注于最大化说话人的类间离散度,而忽略了对说话人的类内内聚性的限制,使学到的说话人特征存在类内发散的问题。为此,本文从模型自身出发,提出了一种基于类中心趋近准则的全信息训练方法。在保证最大化区分不同说话人的前提下,该方法在模型训练中加入了对说话人类内方差的限制,提升了所学说话人特征的类内内聚性。四、提出了基于音素相关训练的说话人特征学习方法。考虑到说话人特征在学习过程中完全依赖于复杂的模型结构和大量的语音数据,这种“盲目”的数据驱动使得模型在训练过程中极易受到发音内容等信息的干扰。为此,本文受条件学习的启发,提出了一种基于音素补偿准则的音素相关训练方法。该方法在模型训练中先验地引入音素条件,使说话人特征在学习过程中即时得到音素信息的补偿,削弱了因发音内容不同而导致的说话人特征发散问题,提升了所学特征的说话人区分性。