论文部分内容阅读
随着深度神经网络(Deep neural network,DNN)技术的发展,其在机器学习和模式识别领域有着广泛的影响,特别是在图像识别和自动语音识别(ASR)方面的成功应用。这鼓舞着我们继续探索DNN在其他方面的应用,这些领域有着部分相同的功能和过程。然而,其在一个新的领域的应用,需要依赖新的知识来提高性能。本研究重点研究了基于深度神经网络的说话人识别任务。所谓说话人识别,又被称为声纹识别技术,主要任务是通过待测试语音来判断对应的说话人身份。
在说话人识别中,传统上采用的是基于Mel频率倒谱系数(MFCC)特征的高斯混合模型(GMM)框架,每个说话人模型都是基于GMM进行建模的,它是根据语音信号的短时平稳性进行分析建模,是一种生成式的模型,不能很好的表征说话人特征。为了直接考虑说话人的识别特征和模型,神经网络是最佳的选择之一。特别是随着近年来深度神经网络技术的发展,其特征提取和模式识别越来越受到重视。
基于上述的背景,本文研究了一种基于深度神经网络的说话人识别系统,使用这种方法,相较于传统的方法可以更好的进行说话人的识别,主要的研究工作如下:
文章首先介绍了语音信号的预处理步骤,方法及意义,具体分析了两种具有代表性的语音特征的得到方式,并进行对比。然后介绍了说话人识别模型的具体估计方式。具体介绍了EM算法估算高斯混合模型,以及采用MAP算法估计通用背景模型。介绍了I-Vector模型的计算方式。最后对传统的I-Vector模型进行改进,提出了一种基于DNN的I-Vector模型。因为神经网络具有从抽象的数据中学习的能力,采用深度神经网络来提取对说话人的特征进行加工。具体讲述了这种方法的理论依据,以及对以往的模型进行改进的步骤及方法。采用新的估计算法代替最大后验概率建立说话人模型。并分析不同的激活函数对说话人模型造成的影响,从而采用最适合的激活函数。为解决过拟合问题,在神经网络中增加dropout层。针对I-vector模型中困难的矩阵估计,提出一种新的方法代替,并具体的演示。最终训练出基于深度神经网络的说话人模型。并通过具体实验,与传统的I-Vector模型,GMM-UBM模型进行对比,验证其实用性。
实验中所采用的语音库主要以Timit语音库和自建的语音库进行实验,对文章中提到的基于深度神经网络的说话人识别系统进行实验分析,主要采用不同数量的样本,不同长度的样本以及不同性别等数据对系统进行测试。并且与传统的GMM-UBM和I-Vector模型进行对比,测试其是否对说话人识别成功率有所改善。最后在不同的噪声背景下,分析这种方法的识别率和噪声的鲁棒性。最后的实验表明,本文所提的方法确实对传统的I-Vector方法有所改进,识别效果有所提升。证明了文中所提方法的合理性和实用性。
在说话人识别中,传统上采用的是基于Mel频率倒谱系数(MFCC)特征的高斯混合模型(GMM)框架,每个说话人模型都是基于GMM进行建模的,它是根据语音信号的短时平稳性进行分析建模,是一种生成式的模型,不能很好的表征说话人特征。为了直接考虑说话人的识别特征和模型,神经网络是最佳的选择之一。特别是随着近年来深度神经网络技术的发展,其特征提取和模式识别越来越受到重视。
基于上述的背景,本文研究了一种基于深度神经网络的说话人识别系统,使用这种方法,相较于传统的方法可以更好的进行说话人的识别,主要的研究工作如下:
文章首先介绍了语音信号的预处理步骤,方法及意义,具体分析了两种具有代表性的语音特征的得到方式,并进行对比。然后介绍了说话人识别模型的具体估计方式。具体介绍了EM算法估算高斯混合模型,以及采用MAP算法估计通用背景模型。介绍了I-Vector模型的计算方式。最后对传统的I-Vector模型进行改进,提出了一种基于DNN的I-Vector模型。因为神经网络具有从抽象的数据中学习的能力,采用深度神经网络来提取对说话人的特征进行加工。具体讲述了这种方法的理论依据,以及对以往的模型进行改进的步骤及方法。采用新的估计算法代替最大后验概率建立说话人模型。并分析不同的激活函数对说话人模型造成的影响,从而采用最适合的激活函数。为解决过拟合问题,在神经网络中增加dropout层。针对I-vector模型中困难的矩阵估计,提出一种新的方法代替,并具体的演示。最终训练出基于深度神经网络的说话人模型。并通过具体实验,与传统的I-Vector模型,GMM-UBM模型进行对比,验证其实用性。
实验中所采用的语音库主要以Timit语音库和自建的语音库进行实验,对文章中提到的基于深度神经网络的说话人识别系统进行实验分析,主要采用不同数量的样本,不同长度的样本以及不同性别等数据对系统进行测试。并且与传统的GMM-UBM和I-Vector模型进行对比,测试其是否对说话人识别成功率有所改善。最后在不同的噪声背景下,分析这种方法的识别率和噪声的鲁棒性。最后的实验表明,本文所提的方法确实对传统的I-Vector方法有所改进,识别效果有所提升。证明了文中所提方法的合理性和实用性。