论文部分内容阅读
近些年由于引入了基于深度神经网络(Deep Neural Network,DNN)的声学模型,语音识别系统在安静环境下取得令人满意的识别效果,然而这些系统在信噪比相对较低的环境中(如吵闹的街道,商场)仍然表现得相对较差,并且噪声鲁棒性仍然是阻止语音识别系统大规模应用的关键问题。基于此,论文对已有的噪声鲁棒性语音识别方法进行分析和总结,并且主要针对后端声学建模部分展开研究,论文所做的创新与具体工作总结如下:首先,论文采用DNN语音增强技术作为噪声鲁棒性语音识别系统的前端,通过构造大量且包含多种信噪比的带噪语音与干净语音一起送入模型中,对模型进行受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)的无监督预训练和反向错误传播算法的有监督微调,最后解码,对语音波形进行重构获得完整的可听的语音波形文件。其次,论文首次将卷积神经网络(Convolutional Neural Network,CNN)与时延神经网络(Time Delay Neural Network,TDNN)进行结合构造声学模型用于噪声鲁棒性语音识别,具体如下:首先通过对时延神经网络(TDNN)隐藏层中参数矩阵进行半正交低秩矩阵分解(Semi-Orthogonal Low-Rank Matrix Factorization),然后与卷积神经网络(CNN)结合并在其隐藏层之后添加时间限制自注意层(Time-Restricted Self-Attention Layer)而得到优化的CNN-TDNN模型,将该模型作为系统的后端。最后,论文提出了将DNN语音增强联合迁移学习训练噪声鲁棒性语音识别声学模型的方法,通过在训练噪声鲁棒性语音识别声学模型过程中,将其中一组模型在增强的数据集中训练(作为学生模型),另一组在干净的数据集中训练(作为老师模型),然后利用迁移学习(Transfer Learning)的知识让学生模型学习老师模型的后验概率分布,以最大化两者之间的互信息。从而最终提高噪声鲁棒性语音识别系统的识别率和鲁棒性。实验结果表明,优化的CNN-TDNN模型相比深度神经网络(DNN)、卷积神经网络(CNN)、时延神经网络(TDNN)和CNN-TDNN模型具有更好的性能,该模型的平均识别词错率(WER)相比基线下降了11.76%。在该实验基础上,将该模型经过基于权重迁移的迁移学习所训练得到的模型具有更好的鲁棒性,实验测试的平均识别词错率(WER)又下降了0.37%。