论文部分内容阅读
深度学习是近年来在机器学习领域出现的一个新的研究热点,其最早源于人工神经网络(ANN)的研究。它通过模仿人脑多层次的模型结构,对底层信息经过多层非线性变换,逐步提取低层特征形成更加抽象的高层表示,来发现数据的本质特征。将深度学习技术结合多层神经网络应用于语音识别的研究,具有重要的理论意义和实用价值。 本文首先对语音识别系统的基本原理和隐马尔科夫模型(HMM)的基础知识进行了讲解,综述了传统的语音识别方法并分析了它们的优缺点。对预加重、端点检测、特征参数提取等过程都进行了仿真实验。 论文重点研究了基于深度学习的多层神经网络。对标准误差反向传播(BP)算法和改进的BP算法进行了仿真实验,通过对比改进方案前后的实验效果,可以看出改进的BP算法能够加快网络训练速度,提高效率。 深度自编码(DAE)网络是一种典型的深度学习模型,它由多个自编码器(AE)组成。DAE网络在训练时,先通过无监督学习,完成对隐含层的预训练,然后再用BP算法对网络进行精调,这样可以改善传统BP算法的缺陷,提高网络性能。本文利用Matlab软件分别构建了DAE网络和传统的BP神经网络,对孤立词识别进行了仿真实验,结果表明DAE网络识别准确率较BP神经网络有20.0%的提升。 将深度学习应用于连续语音识别更有实际意义。在连续语音识别中,利用深度神经网络(DNN)对声学特征建模,可以更好地提取语音信号的特征,从而有利于识别。另外,DNN声学模型在与HMM结合时,不需要对特征参数的分布进行假设,更符合真实情况。论文最后利用开源语音识别工具Kaldi在TIMIT语音库上进行了基于DNN的连续语音识别实验,对于开发集和测试集词错误率分别为18.1%和19.0%,与其他语音识别方法相比性能有大幅提升,从而验证了深度学习算法的有效性。