论文部分内容阅读
随着科学技术的高速发展,网络信息化时代下社会对信息安全的需求日益增长。如何准确识别某个人的身份,更好地保护个人的信息安全是智能化时代亟待解决的关键问题。生物特征识别作为一种利用人的生理和行为特征来进行个人身份认证的技术,因其兼具生物特征方便、安全和高效的特点逐渐获得越来越多的关注。其中,说话人识别技术,又称声纹识别技术是生物特征识别领域的热门研究方向之一,具备声纹语音特征稳定、唯一、便于采集等优点,被广泛应用于人机交互、身份识别等现实场合中。深度学习的引入进一步促进了说话人识别技术的发展,基于神经网络的端到端的说话人识别技术吸引了众多科研工作者,然而,目前端到端的说话人识别系统普遍采用“分而治之”的流程:即先从原始语音信号中提取出传统的语音特征,如梅尔频率倒谱系数,再基于传统的语音特征进行说话人分类器网络的训练。这种方法通常依赖于人工设计固定的、复杂的传统语音声学特征,并且传统语音特征的提取和说话人识别模型的训练往往是单独进行的,并未从整体的角度出发,难以实现语音特征提取及说话人识别分类的共同优化。因此如何有机地结合说话人语音特征的提取器和说话人识别的分类器,实现端到端的说话人识别算法是有必要的同时又是极富挑战性的课题。针对上述问题,本文提出了一个新的端到端的说话人识别框架:基于时域卷积直接从原始时域信号提取语音特征,并搭建基于深度神经网络的说话人分类器模型,从而实现说话人的身份识别。本文的主要工作有:第一,提出了一个新的基于时域信号的端到端的说话人识别框架,即联合语音特征提取器、基于深度神经网络(Deep Neural Networks,DNN)的分类器、AM-Softmax和Triplet损失函数的说话人识别框架。该识别框架能够实现共同优化语音特征的提取和说话人的识别分类,并达到稳定、准确的说话人识别目的。第二,提出了一种新的基于时域卷积的语音特征提取方法,该方法能够从原始的时域信号中学习提取出一种有效的时间域语音特征表达(Raw-Front Feature),并且可以替代传统的固定语音特征嵌入到说话人识别系统中,提高了直接从时域信号中提取语音特征的准确性和鲁棒性。第三,为验证本文提出的新的语音特征提取方法的可行性,以及该方法在端到端说话人识别框架中的可移植性,本文搭建了多个将时间域语音特征(Raw-Front Feature)作为输入和不同深度神经网络作为分类模型的文本无关说话人识别系统,探讨了基于时域卷积的语音特征提取方法在端到端的说话人识别技术上的应用。在开源数据集CSTR VCTK Corpus和TIMIT上的大量实验结果对比和分析表明,本文提出的新的基于时域信号的端到端的说话人识别框架能够分别取得1.93%和9.61%的等错误率(Equal Error Rate,EER),实现了良好的说话人识别准确率性能。并且相比于传统的语音特征方法,本文提出的时间域语音特征表达在固定分类器模型实验配置下,能够获得更低的EER值。