论文部分内容阅读
语音识别是人机交互的重要手段之一,该技术可以将语音数据转换成计算机可理解的数据,从而使计算机有效地处理自然语言。近年来,由于便携式设备和人工智能等技术的迅速发展,语音识别技术的应用领域也随之变得更加广阔。经过几十年的优化改进,传统语音识别技术已经遇到发展瓶颈。目前,随着深度学习技术日趋成熟,出现了许多建模能力强大的神经网络结构,将深度学习技术应用到语音识别中有助于提升语音识别系统的性能。另外一方面,随着人机交互需求的提升,语音识别的应用场景也从简单的命令词识别转换到连续的单句语音识别,单句语音识别技术的研究对人机交互水平提升有重要意义。传统的语音识别技术主要依靠GMM-HMM结构进行识别系统的构建。GMM-HMM系统通过HMM对语音的时序特征信息构建模型,并基于GMM对HMM中的状态实现分类拟合以获得对语音的一个近似模拟。但是,由于GMM-HMM在非线性建模方面存在一定的局限性,限制了传统语音识别技术性能的进一步提升。在深度学习领域中,神经网络技术具备强大的非线性建模能力,可以弥补GMM-HMM模型中的缺陷。因此,本文在语音识别系统中应用了多种神经网络结构。本文分析并实现了一个基于GMM-HMM的传统语音识别系统,并将其作为用于比较的基线系统。GMM对非线性数据集的建模能力存在缺陷,因此引入深度学习中的DNN结构替代传统系统中的GMM部分对HMM状态进行分类。同时,使用DBN预训练技术对DNN-HMM系统进行了性能优化,对语音声学模型进行改进提升识别准确率,且应用了DAE技术对数据预处理来减少噪声干扰。由于DNN网络结构复杂并且DNN使用的激活函数是非线性的,所以DNN系统对单句语音识别性能优于GMM系统。本文的实验结果进一步证明了这一结论。本文进一步探究了其他深度学习技术在单句语音识别中应用的可能性。首先,本文基于CNN技术实现了一个小词汇量语音识别系统,该系统首先将语音信号转换为二维的时频图传入到网络的输入层中,经过CNN的卷积层和池化层处理之后生成新的特征集,最后通过全连接层使用softmax函数来对这些特征集进行分类,从而达到小词汇量下较好的识别效果。实验结果证明,CNN可对长度接近的语音信号进行特征提取和直接分类。但是CNN无法提取语音的时序特征信息,这需要结合其他神经网络进行弥补。因此,进行了对基于LSTM技术的单句语音识别系统的研究,通过引入CTC损失函数,LSTM网络可以在时序上将语音和识别出的文本进行对齐,这使得LSTM可以取代传统语音识别技术中的HMM部分。最后本文将LSTM和CNN结合,利用CNN对语音特征进行提取,并用LSTM进行时序上的对齐。实验结果证明CNN-LSTM在单句语音识别上的性能要优于GMM-HMM系统。