论文部分内容阅读
说话人自适应(Speaker Adaptation, SA)是语音识别中的关键技术,它利用少量自适应数据通过变换语音特征或修正声学模型来提高特定说话人的识别准确率。在传统基于高斯混合模型-隐马尔科夫模型(Gaussian Mixture Model-Hidden Markov Model, GMM-HMM)的语音识别中,说话人自适应通常可以使识别错误率降低5%-30%,是提升系统性能的重要方法。近年来,随着深度神经网络(Deep Neural Network, DNN)被广泛应用于语音识别,DNN-HMM逐渐成为声学模型的主流配置。然而传统说话人自适应技术通常不能直接应用于该模型,而现有基于DNN-HMM的说话人自适应技术性能提升又不明显,研究适合DNN-HMM的说话人自适应方法成为了语音识别领域新的热点和难点。本文围绕在]DNN-HMM上实现快速、有效的说话人自适应,研究了基于多GPU的DNN快速训练和几种基于DNN的说话人自适应方法。具体如下:首先,本文研究了基于多GPU加速DNN训练的若干技术途径,及一些优化DNN训练的方法。我们分析了DNN训练过程中用到的相关算法,将训练步骤分解成适合GPU并行处理的矩阵运算形式,并利用CUDA C高效实现了这些算法,在此基础上我们进一步提出权重逐次轮转以及分-合训练融合方法来在多GPU上加速DNN训练并取得了显著的效果。在TIMIT数据集上进行的音素识别验证实验表明,在基本保证识别准确率的前提下,优化后的DNN训练速度获得了明显提升。这为我们在大规模数据上进行基于DNN-HMM的说话人自适应相关研究奠定了基础。而后,本文对基于说话人编码的特征域自适应方法进行了改进,提出一种基于说话人编码的模型域自适应方法。该方法克服了前者会引入规模较大的自适应变换网络的缺点,引入的额外参数较少,并且在层数较深,隐层节点较多的网络上可以取得显著优于前者的性能提升。我们还将总变化因子向量(i-Vector)技术引入该模型中,提出i-Vector表征说话人特性的编码方法,进一步改善了我们的自适应效果。相关实验表明我们提出的方法可以带来明显的识别准确率提升,是进行DNN-HMM声学模型说话人自适应的良好选择。之后,本文将区分性训练准则引入到说话人自适应中,提出基于说话人编码的区分性自适应方法,提高了识别准确率。我们还基于联合训练的思想提出一种说话人相关DNN的区分性建模方法,进一步改善了系统性能,在Switchboard数据集上的实验表明相较于DNN基线系统,该方法最多可以使识别错误率降低约25%,是目前最有效的]DNN-HMM声学模型说话人自适应方法之一。最后,本文将矩阵分解思想应用于说话人自适应,提出一种基于奇异值分解(Singular Value Decomposition, SVD)的说话人自适应方法,该方法利用SVD分解DNN权重,并使用奇异值表征说话人差异信息,这减少了进行说话人自适应时所需要更新的参数量,有效的减轻了过拟合问题,取得了良好的自适应效果。我们还融合了说话人编码和矩阵分解的思想,提出一种基于二者融合的自适应方法,相关实验表明该方法可以有效的减小说话人编码的维度和整个建模过程的计算复杂度,对于提升自适应效率具有重要意义。