论文部分内容阅读
语音识别技术的主要目标是利用计算机将人类的语音模拟信号转换成计算机能处理的数字信号,如字符序列或二进制编码。伴随着移动互联网的快速发展,辅助输入、机器翻译、人机对话、导航等领域对语音识别技术在实时性和准确性方面提出了更高要求。传统的语音识别技术主要考虑在无噪声或较弱噪声环境下的声学特征提取、声学模型构建、模型训练、语言模型构建和解码器构建等模块,而人类大多数语言环境都充斥着各种类型的噪声,强噪声环境下的语音识别的研究具有极高的实用价值。本文以强噪声环境(信噪比小于等于20db)下的语音识别为研究对象,以深度学习原理为理论基础,以噪声注入为语音训练方式,以Kaldi语音识别工具箱为平台,对带强噪声的语音进行了研究及系统实现,取得了较为满意的结果。具体工作为:1、提出了将特征最大似然线性回归(feature maximum likelihood linear regression,fMLLR)作为强噪声环境下的语音训练特征。使用MFCC(Mel-Frequency Cepstral Coefficients)特征训练模型并识别后,对这些结果作fMLLR变换,并进行fMLLR估计得到的声学特征即为fMLLR特征。对混合高斯隐马尔可夫(Gaussian mixture model-hidden Markov model,GMM-HMM)模型来说,fMLLR变换的估计准则是在给定特定模型的条件下,最大化用于自适应的数据的似然度。对DNN(deep neural network)来说,fMLLR变换可以用来最大化交叉熵(通过反向传播算法)。fMLLR变换会作用在深度神经网络的每个输入向量上或者每一帧的特征上,因此fMLLR特征具有较好的泛化能力,可以适应复杂的噪声场景。实验表明,在信噪比为0db的情形下,与使用MFCC特征相比,使用fMLLR特征可以降低系统识别的词错率7.18%。2、提出了基于深度置信网络(deep belief network,DBN)预训练的噪声训练方法。区别于纯语音环境的训练方式,带强噪声的语音训练过程分为两部分。首先对训练集语音数据注入噪声,将提取到的MFCC特征用于训练GMM-HMM模型,并利用此模型提取fMLLR特征;然后利用fMLLR特征进行DBN预训练,再使用预训练结果进行DNN(deep neural network)训练,这将会赋予DNN更好的初始化权重。此外,在预训练过程中利用了大量无标注信息,这为DNN训练中的小尺度调整权值做好了数据准备。实验表明,在信噪比为0db的情形下,使用DBN预训练可以降低系统识别的词错率4.1%。