论文部分内容阅读
语音识别的终极目标是使人与机器之间能够像人与人之间一样自如的交流。声学模型性能的好坏直接影响到整个语音识别系统的准确性。过去几十年,高斯混合模型-隐马尔科夫模型(Gaussian Mixture Model-Hidden Markov Model, GMM-HMM)在语音识别声学建模方法中一直起着主导作用。GMM-HMM框架由于具备较完善的理论体系,包括区分性训练、自适应等成熟的配套算法,以及HTK等开源工具,而受到众多研究者的追捧。近年来,深度学习(Deep Learning)理论在机器学习领域兴起,其对语音识别方向也产生了深远影响。基于深度神经网络-隐马尔科夫模型(Deep Neural Network-Hidden Markov Model, DNN-HMM)的声学模型混合建模方案迅速取代传统的GMM-HMM框架,成为当前主流语音识别系统的标配,基于DNN-HMM新框架的相关算法研究也受到语音识别领域的广泛关注。在这样的背景下,本论文围绕深度神经网络声学建模及其在自动语音识别中的应用,进行了较系统而深入的研究。首先,为了提升基于神经网络的声学建模的能力,本文分别从特征域和模型域两个方面进行了探索。在特征域,本文借鉴传统TANDEM的方法将神经网络看成一种提取后验概率特征的预处理器,并基于所提取的区分性特征进行GMM-HMM建模。本论文提出了一种基于竞争信息的TANDEM系统改进方法。具体来说,我们首先基于解码过程中所生成的词图挑选训练样本的竞争信息,并基于该竞争样本训练相应的“竞争信息”神经网络,以对传统的只基于正例进行神经网络训练的TANDEM算法起到增强作用。接着,在直接使用神经网络作为声学分类器的模型域方面,本文针对中文语音识别系统中的多流声学特征,提出了一种中间层融合建模方案,该方案充分利用深度神经网络结构和学习算法的特点,在深度神经网络的中间某隐层进行多个特征流的中间层特征融合,并在融合特征的基础上继续学习更高层的特征表示。该算法在深度神经网络的框架下有效的利用了多流特征的互补特性,提升了识别系统的性能。然后,本文在深层神经网络声学建模效率方面进行了深入的研究,以解决大规模语音数据声学建模的可应用性问题。面向真实语音识别系统的海量训练数据、深层神经网络的超大规模模型参数、以及模型结构导致的传统训练算法不可并行性,使得训练效率问题成为深层神经网络声学建模实用化的最大瓶颈。针对这样的情况,我们分析了深层神经网络的学习算法,找到影响其效率的主因,并针对这些原因提出了一种新颖的多深层神经网络联合建模方案。通过将数据进行聚类,我们可以分开独立的并行训练多个深层神经网络来对各个聚类数据分别进行建模。这种建模方法在交叉熵准则下,相对普通单个深层神经网络建模方法效率的提升是非常明显,在实际的研究应用中具有重要意义。最后,针对我们提出的多深层神经网络联合建模方案,我们进行了进一步的完善。为了验证这一建模框架的切实可行性,同时解决其性能损失问题,我们在序列级区分性准则下进行了研究。序列级区分性准则可以看作是多DNN的一种联合优化策略,我们根据多DNN结构特点,推导出了此框架下的基于最大互信息量的区分性训练方法,并实现了部分并行化。实验表明,在经过联合优化后,多DNN方法与单个DNN方法达到几乎一样的性能,同时在交叉熵准则与最大互信息量准则下分别有超过7倍和1.5倍的训练效率提升,表明了多DNN声学建模方法是一种实际有效的建模方案。