论文部分内容阅读
说话人识别又称为声纹识别,其主要任务有两种:说话人确认和说话人辨认。经过几十年的发展,说话人识别技术已经广泛应用于安防、金融和司法等领域。随着深度学习技术的迅速发展,端到端神经网络在说话人识别中有良好的识别效果。但基于端到端神经网络的方法仍然存在一些问题,如由帧级别特征转换为句子级别特征的过程中难以提取到更多有用的帧信息、现有的损失函数因为正负样本数量不均衡导致的识别性能不理想及训练收敛速度过慢的问题和在复杂场景(如语音回放攻击场景)下识别性能会变差等。
本文针对以上不足,分别提出了对应的解决方法。本文的主要贡献如下:
1.本文针对在端到端说话人确认任务中,帧级别特征转化为句子级别特征过程中一般采用平均池化方法,而采用平均池化方法相当于将每帧的重要性视为一致,但是语音每一帧中包含的说话人信息的重要性不均衡,从而用平均池化方法难以得到最优的句子级别特征的问题,提出一种基于阈值再加权注意力(Threshold re-weighting Attention, TRW)机制的ResCNN(Residual Convolutional Neural Network)端到端网络结构。首先,在由ResCNN网络得到的帧级别特征转化为句子级别特征过程中引入注意力机制的方法,通过训练选择出相对重要的帧,给予较大的权重;其次,若其中某些权重过小,说明此帧含有较少的说话人信息,因此将小于所有权重平均值的权重置零,其他权重重新根据现有权重再加权得到新的权重系数。本文通过实验表明,该方法能够更有效地将含有更多说话人信息的帧筛选出来,从而提高说话人确认系统的性能,同时扩展实验表明其也适用于噪音场景下的说话人确认。
2.基于端到端的说话人确认任务中,损失函数的选择和设计非常重要。现在流行的端到端说话人确认损失函数中,GE2E(Generalized end-to-end)损失函数取得了很好的效果。但其在训练过程中选择了多个说话人作为负样本,而只有一个说话人作为正样本,因为正负样本数量不均衡而导致了识别性能不理想及收敛速度过慢的问题,本文提出一种基于辅助训练样本的损失函数(ATS-GE2E Loss, Auxiliary Training Samples-Generalized end-to-end Loss),以引入多个正样本进行辅助判断。首先,在批训练选择样本阶段,除了选择需要训练的样本外,还选择一定数量的辅助训练样本,辅助训练样本部分参与训练过程:只参与距离相似度矩阵和损失函数的计算,用来辅助判断;其次,重新设计了距离相似度矩阵,将辅助训练样本的相似度矩阵和原相似度矩阵进行级联;最后,设计了新的损失函数,将辅助训练样本相似度矩阵引入原损失函数的计算中。实验表明,本文提出的基于辅助训练样本的损失函数可以提高说话人确认系统的性能,使训练具有更快的收敛速度,并能够大幅度降低等错误率。
3.在语音回放攻击场景下,说话人识别系统因为很难区分真实语音和回放语音,其安全性会遭到很大威胁。现有方法中,LCNN(Light Convolutional Neural Network)系统针对语音回放攻击场景起到了不错的识别效果,但其存在严重的过拟合问题。针对此问题,提出一种基于AOF-LCNN(Anti Over Fitting-Light Convolutional Neural Network)的端到端神经网络。首先,设计了一个新的DNN(Deep Neural Network)结构分类器作为后端分类网络,将该 DNN 结构级联在 LCNN 网络之后,形成一套新的端到端网络结构;其次,因为LCNN结构中的MFM(Max Feature Map,最大特征图)结构可能是造成过拟合的原因,因此在DNN后端结构中采用LeakyRelu作为激活函数,以抵消MFM的过拟合影响。本文实验结果表明,该方法一定程度上改善了过拟合的问题,提高了系统的鲁棒性,并同时降低了系统的等错误率,提高了识别性能。
本文针对以上不足,分别提出了对应的解决方法。本文的主要贡献如下:
1.本文针对在端到端说话人确认任务中,帧级别特征转化为句子级别特征过程中一般采用平均池化方法,而采用平均池化方法相当于将每帧的重要性视为一致,但是语音每一帧中包含的说话人信息的重要性不均衡,从而用平均池化方法难以得到最优的句子级别特征的问题,提出一种基于阈值再加权注意力(Threshold re-weighting Attention, TRW)机制的ResCNN(Residual Convolutional Neural Network)端到端网络结构。首先,在由ResCNN网络得到的帧级别特征转化为句子级别特征过程中引入注意力机制的方法,通过训练选择出相对重要的帧,给予较大的权重;其次,若其中某些权重过小,说明此帧含有较少的说话人信息,因此将小于所有权重平均值的权重置零,其他权重重新根据现有权重再加权得到新的权重系数。本文通过实验表明,该方法能够更有效地将含有更多说话人信息的帧筛选出来,从而提高说话人确认系统的性能,同时扩展实验表明其也适用于噪音场景下的说话人确认。
2.基于端到端的说话人确认任务中,损失函数的选择和设计非常重要。现在流行的端到端说话人确认损失函数中,GE2E(Generalized end-to-end)损失函数取得了很好的效果。但其在训练过程中选择了多个说话人作为负样本,而只有一个说话人作为正样本,因为正负样本数量不均衡而导致了识别性能不理想及收敛速度过慢的问题,本文提出一种基于辅助训练样本的损失函数(ATS-GE2E Loss, Auxiliary Training Samples-Generalized end-to-end Loss),以引入多个正样本进行辅助判断。首先,在批训练选择样本阶段,除了选择需要训练的样本外,还选择一定数量的辅助训练样本,辅助训练样本部分参与训练过程:只参与距离相似度矩阵和损失函数的计算,用来辅助判断;其次,重新设计了距离相似度矩阵,将辅助训练样本的相似度矩阵和原相似度矩阵进行级联;最后,设计了新的损失函数,将辅助训练样本相似度矩阵引入原损失函数的计算中。实验表明,本文提出的基于辅助训练样本的损失函数可以提高说话人确认系统的性能,使训练具有更快的收敛速度,并能够大幅度降低等错误率。
3.在语音回放攻击场景下,说话人识别系统因为很难区分真实语音和回放语音,其安全性会遭到很大威胁。现有方法中,LCNN(Light Convolutional Neural Network)系统针对语音回放攻击场景起到了不错的识别效果,但其存在严重的过拟合问题。针对此问题,提出一种基于AOF-LCNN(Anti Over Fitting-Light Convolutional Neural Network)的端到端神经网络。首先,设计了一个新的DNN(Deep Neural Network)结构分类器作为后端分类网络,将该 DNN 结构级联在 LCNN 网络之后,形成一套新的端到端网络结构;其次,因为LCNN结构中的MFM(Max Feature Map,最大特征图)结构可能是造成过拟合的原因,因此在DNN后端结构中采用LeakyRelu作为激活函数,以抵消MFM的过拟合影响。本文实验结果表明,该方法一定程度上改善了过拟合的问题,提高了系统的鲁棒性,并同时降低了系统的等错误率,提高了识别性能。