论文部分内容阅读
随着深度神经网络在大词汇连续语音识别中的应用越来越广泛,基于深度神经网络架构的语音识别系统也逐渐成为人们研究的重点与热点。与传统的高斯混合模型-隐马尔可夫模型(Gaussian Mixture Model-Hidden Markov Model,GMM-HMM)相似,在深度神经网络框架下也同样存在着训练数据和测试数据之间的不匹配问题。说话人自适应技术能够利用说话人信息对神经网络参数调整,有效的改善这种不匹配问题。本文研究如何运用说话人信息提出更为合理且实用的自适应技术,主要内容如下:针对bottleneck tandem系统中说话人自适应方法应用时,由于瓶颈层的存在,导致系统性能欠佳,本文提出一种结合半非负矩阵分解(Semi Non-negative Matrix Factorization,SNMF)及i-vector的说话人自适应方法。该方法有两种实现方式:第一种是利用i-vector进行说话人感知训练,然后利用SNMF算法对权值矩阵某一层做分解,并提取相关特征;第二种首先训练一个说话人无关的神经网络,其次利用i-vector训练自适应网络,接着调整说话人无关神经网络参数,最后利用SNMF算法对权值矩阵做分解并提取特征。最后利用该特征进行识别。在语料较充足的WSJ语料库以及语料数据量较少的捷克语语料库的语音识别任务中,该方法均能够使系统的识别性能进一步的提升。针对基于i-vector的说话人自适应方法在实现过程中,i-vector的提取用到了梅尔频率倒谱系数(Mel-Frequency Cepstrum Coefficient,MFCC)特征,由于该特征鲁棒性相对较差,提出一种改进i-vector的说话人自适应方法。该方法通过引入基于奇异值矩阵分解算法的低维特征提取方法,将i-vector提取过程中用到的特征用该方法提取的鲁棒性更强的低维特征替换,以提取表征能力更优的i-vector,使基于改进i-vector的说话人自适应方法的语音识别系统的识别性能得到改善。在捷克语语料库以及WSJ语料库中的语音识别实验表明,该方法相对于没有使用说话人自适应方法的深度神经网络语音识别系统的性能有明显的改善,且相对于传统的基于i-vector的说话人自适应方法的深度神经网络语音识别系统的性能也有一定的改善。针对说话人感知训练算法中的说话人信息选择的问题,本文引入一种新的说话人信息——说话人嵌入特征,该特征较i-vector能够很好的处理短的语音片段,基于此特征提出一种基于说话人嵌入特征的说话人自适应方法。该方法首先利用一阶统计量以及说话人标签训练深度神经网络(Deep Neural Network,DNN)模型并提取说话人嵌入特征,然后利用该特征和原始输入特征拼接后的特征进行说话人自适应。timit语料库的语音识别任务实验表明,该方法能够改善DNN-HMM语音识别系统的性能。