论文部分内容阅读
说话人识别,又称声纹识别,是根据说话人的声音对说话人进行自动区分,从而实现说话人身份辨别或者确认的生物特征识别技术。其本质上是根据说话人的特征向量进行类别判定的过程,因此本文以提取出更加全面的表征说话人信息的特征向量为目标,最终实现说话人识别系统性能的提高。主要从以下各个方面进行研究以及系统的实现:1、构建了三种传统的说话人识别系统。根据输入特征和建模形式的差异,说话人识别系统可分成不同类型。一是基于全局差异空间建模的说话人识别,即利用大规模数据训练出包含说话人共性特征的通用背景模型,并以其帧后验概率为基础计算子空间数据的各阶统计量以及进行全局差异空间矩阵的训练(简记为TVM-I-Vector);二是基于DNN统计量提取的说话人识别,即利用DNN代替上述中的UBM产生帧级别的后验概率(简记为NN-I-Vector);最后是基于深度瓶颈特征(DBF)的说话人识别,即利用DBF代替MFCC作为系统的输入特征(简记为DBF-I-Vector)。由于在I-Vector建模的过程中并没有具体区分说话人信息和信道信息,因此为了降低信道对说话人识别系统识别性能的影响,在本文设计的说话人识别系统的后端采用LDA或者PLDA等信道补偿技术进行信道补偿以及说话人的区分性训练。2、构建了基于特征融合的说话人识别系统。在说话人识别中输入特征可分为深层特征(如:DBF),和浅层特征(如:MFCC、PLP等)。浅层特征是一种低层声学特征,大都基于短时语音的谱信息,但难以表征语音段的高层信息;基于深度神经网络的说话人识别充分考虑了发音内容对语音信号的影响并添加了具有区分性的信息,提取的是一种深层的特征,但是并没有涉及物理层的最直观的声学特征。考虑到深、浅层特征各自存在的优势和不足,本文采用特征融合的方式实现特征之间的优势互补,利用融合后的特征进行模型的训练以提高说话人识别系统的性能。3、构建了基于模型融合的说话人识别系统。不同类别的说话人识别系统(比如:TVM-I-Vector、NN-I-Vector、DBF-I-Vector等)在性能上有一定的差异,但是也有各自的优势。而这些差异最终表现为提取的特征向量I-Vector的差异,将不同类型的说话人识别系统提取得到的I-Vector进行融合,可以充分综合不同系统的优势。因此,本文根据上述设想进行建模,以提升系统的识别效果。4、构建了端到端的说话人识别系统。在说话人识别领域中,端到端的思想是利用神经网络提取出说话人的说话人表征向量代替经典说话人识别系统中的I-Vector。其具体设计是以基本声学特征作为神经网络的输入,在池化层或标准化层提取出固定长度的能够表征说话人信息的特征向量,即speaker embedding,在系统后端则是利用余弦距离基于PLDA信道补偿技术进行打分。本文正是在此思想的指导下进行系统的设计和优化,以简化训练复杂度并添加具有区分性的信息,从而提升系统的识别效果。