论文部分内容阅读
近年来,深度神经网络取代传统的高斯混合模型,在连续语音识别领域已经取得了巨大成功,而传统的说话人识别建模方法仍以产生式模型为主导。不同于语音识别问题可以事先确定其音子集合,说话人识别问题由于其本身类别的不确定性,使得深度神经网络这一强大的区分度模型难以直接用于说话人分类。本文将深度神经网络引入到说话人识别的建模框架中,在i-vector建模层面和统计量提取层面分别进行了探索。同时,针对深度神经网络的巨大参数量和实际应用中海量的语音数据,本文还对深度神经网络的训练加速问题进行了探究。本文的主要研究工作和创新点有: 1.在i-vector建模层面,采用说话人标签对带Bottleneck层的深度神经网络进行训练,提出了一种基于预训练神经网络的i-vector提取系统。与传统TVM模型相比,该系统在建模过程中加入说话人区分度信息,以提取更加有效的说话人特征。另一方面,由于说话人数据量的局限性,预训练在模型训练中尤其重要。实验表明,该系统提取的i-vector与传统TVM系统提取的i-vector性能相当,且具有一定互补性,两者融合后仍有10%的性能提升。 2.在统计量提取层面,提出了基于LSTM RNN的说话人统计量提取框架,并探究了不同信道条件下DNN/RNN说话人统计量提取框架的鲁棒性。该方法将神经网络的输出作为帧级后验概率,同时与相应帧的说话人特征共同形成该条语音的统计量信息。在文本无关的说话人识别任务上的实验表明,与无监督的GMM-UBM模型相比,深度神经网络产生的后验概率在通道失配情况下更加准确,进而取得了比GMM-UBM更准确的说话人识别结果。另外,在语音识别中有着更高帧准确率的LSTM RNN模型取得了比DNN和GMM更好的说话人识别结果。 3.首次将DNN/RNN说话人统计量提取建模框架应用到文本相关说话人识别任务,并探究了不同训练数据的DNN/RNN系统在三种不同的文本相关测试任务上的性能,由于文本相关说话人识别任务需要同时判定文本信息和说话人信息,采用语音识别准则训练的深度神经网络在文本信息判断上比GMM系统更加准确,实验结果表明,DNN/RNN系统在文本内容不匹配的测试情况下优势明显。 4.针对深度神经网络模型参数量大,传统随机梯度下降算法并行化困难的问题,提出了针对多GPU卡训练平台的异步随机梯度下降算法,该算法将各GPU卡作为一个客户端独立工作,与服务器端CPU分别进行数据和参数的交互,从而实现多卡计算的并行化。实验表明,异步随机梯度下降算法在保证模型识别性能的前提下取得了很好的加速效果。