论文部分内容阅读
声学模型是语音识别系统的核心模块,它直接影响系统的最终识别性能。传统的声学模型建模技术一般基于隐马尔可夫模型(Hidden Markov Model,HMM)框架,采用混合高斯模型(Gaussian Mixture Model,GMM)来描述语音特征的概率空间分布。然而,受限于一些不合理的假设,基于GMM的声学建模在自然口语语音识别任务上的字错误率仍比较高。近年来,基于深度神经网络(Deep Neural Network,DNN)的声学模型建模技术在语音识别领域取得了突破性的进展,相对于经鉴别性训练的GMM,能获得字错误率相对下降20%左右的性能提升。本文基于HMM-DNN的声学模型建模技术,在面向电话交谈语音识别(Conversational Telephone Speech,CTS)的任务上开展了一系列研究,主要工作内容及创新点如下: 1.搭建了基于HMM-DNN的面向电话交谈语音识别系统,实现了DNN的基本训练算法,如用于预训练(Pre-training)的受限玻尔兹曼机,用于微调(Fine-tuning)的误差反向传播算法(Error Back-Propagation,EBP)。实现了基于DNN的解码器,相对经最小音素错误(Minimum Phone Error,MPE)准则训练的GMM模型,在多个测试集上取得了一致的性能改善,平均字错误率相对下降14.1%。 2.针对CTS任务上的识别结果性能比较差的问题,分析了其可能导致的原因。根据DNN本身所固有的特点,从特征层面、DNN模型结构、训练时元参数调节以及模型泛化能力等方面展开了一系列的优化工作。针对训练数据中各状态的训练样本分布不均的情况,提出了一种先验概率平滑算法,有效地缓解了由于数据稀疏导致的性能下降问题。最终,经过优化的DNN模型相对于基线DNN模型在三个测试集上取得了平均字错误率相对下降15.6%的性能提升。 3.语音识别系统在声学模型和实际待识别语音之间存在不匹配时会导致性能急剧下降。为了减少这种不匹配所造成的影响,本文研究了基于DNN的声学模型自适应技术。在电话客服语音识别任务上,采用有监督自适应算法使得字错误率相对下降10%以上。此外,提出了一种基于后验概率“自举”的无监督声学模型自适应方法,能够有效地对这些无标注语音进行利用,改善系统性能。 4.与DNN所获得的性能提升相伴的是模型参数量的剧增。DNN的参数量一般是GMM模型的210倍左右,导致实时解码成为了DNN实用化的瓶颈。本文对影响解码器速度的各个模块进行独立分析,分别加以优化。对于后验概率估计模块,采用奇异值分解减少模型参数量,采用SSE指令集和浮点转定点运算来加快运算速度。对于维特比搜索模块,结合语音信号短时平稳的特性,采用跳帧计算来降低计算量。最终,在识别精度损失可以忽略的前提下,基于DNN的解码器在优化后实时率降从6.1倍实时显著降低到0.31倍实时,基本上满足了应用需求。