论文部分内容阅读
随着互联网的迅猛发展,个人信息隐私安全受到了越来越多的关注,基于生物信息身份验证技术的应用越来越普遍。说话人识别作为一项核心的身份验证技术,被广泛应用于司法、门禁访问控制、智能移动终端唤醒等领域。与指纹识别、人脸识别、虹膜识别相比,说话人识别对输入设备要求更低,基于嵌入式的麦克风即可实现,因而应用到实际生活场景中的成本更低。同时说话人识别技术在国家安全防控领域也发挥着重要的作用,如基于电话语音的疑犯识别。基于I-VECTOR(Identification Vector)的说话人识别技术是目前说话人识别领域的主流方法之一。然而其模型训练步骤繁琐,且各阶段使用不同的目标函数来优化求解,使得各阶段产生的误差无法在下一阶段得到修正,同时I-VECTOR方法得到的超矢量维度较高,带来了较高的计算量。近年来,出现了基于三元组损失(Triplet Loss)的端到端神经网络方法,它使用唯一的目标函数来对说话人进行建模,避免了I-VECTOR各阶段独立优化的问题,得到的超矢量维度较低,能够显著降低计算量。此外,三元组损失的思想与说话人识别目标相契合,即拉近同类距离,推远异类距离。泛化端到端损失(Generalized End to End Loss,GE2E)为Google于2018年提出的用于文本相关说话人确认任务的方法,尽管它对类内距离进行了很好的约束,然而却无法有效利用训练数据,导致其训练效率要远远低于三元组损失的方法。为此,本文借鉴GE2E对类内距离约束的思想,研究基于引入类内距离约束的改进三元组损失的端到端说话人识别方法。由于真实条件下语音间差异较大,为降低说话人类内散度,本文采用基于流形学习的t分布的随机近邻嵌入(t-distributed Stochastic Neighbor Embedding,t-SNE)算法对神经网络得到的说话人特征嵌入进行信道补偿。考虑到真实条件下语音中的某些帧较为纯净,对说话人识别更有帮助,因而本文采用注意力加权池化(Attention Weighted Pooling)方法有效提升模型对于噪声的鲁棒性。本文所提出的基于三元组损失端到端特征嵌入与t-SNE信道补偿的说话人识别方法,在VoxCeleb1数据集上的识别性能与基线系统相比均有显著提升。