论文部分内容阅读
端到端(End to End)的连续语音识别系统是目前语音识别的热门研究方向。该系统中,基于循环神经网络的序列到序列模型被用于建立输入语音特征序列与输出音素(或字素)序列的映射关系。相比传统语音识别系统,该系统具有结构简洁、通用性强、不依赖语言学知识等优点。然而实验表明,端到端的语音识别系统的训练需要耗费更多的标注语料、计算资源和时间代价才能达到传统语音识别系统的性能员,因此调整模型结构和设计算法改进端到端语音识别系统是目前语音识别领域的研究热点。本文分别介绍基于连接时序序列分类算法和基于注意力机制的“编码-解码”模型(简称“注意力模型”)的端到端语音识别系统,并且在搭建基线系统基础上,围绕现有注意力模型存在的主要问题进行改进和创新,主要的工作和创新点如下:1.针对注意力模型参数规模庞大和训练过程中参数收敛速度慢的问题,将原有模型中循环神经网络使用的门循环单元(Gate Recurrent Unit,GRU)用最少门单元(Minimal Gate Unit,MGU)代替。MGU是通过简化在GRU的结构而得,具有与GRU相接近的时序建模能力并且含有更少参数。将模型中深层循环神经网络的基本单元替换后可以有效降低注意力模型的参数规模。实验结果表明,基于MGU的注意力模型相比原有模型在性能损失较小的情况下,能够有效降低训练时间。2.针对基于注意力模型的语音识别结果中音素与特征中的对齐不准确的问题,提出使用能自适应宽度的窗函数限定注意力范围方法,以及在计算系统特征的卷积神经网络中加入池化层。该方法首先,根据相近音素的实际发音长度估计窗口函数的宽度,缩小注意力的分布范围从而避免注意力分布在与当前音素不相关的特征区域;其次,计算系数特征的卷积神经网络,通过加入池化层能够降低网络输入的噪声干扰。实验结果表明,改进后模型识别结果中音素与特征的对齐准确度明显提升,系统的识别准确率也得到提高。3.针对注意力模型由于缺少有效初始化参数造成的识别准确低和训练迭代次数多的问题,提出一种结合瓶颈特征提取网络和注意力模型方法。该方法首先训练基于深度置信网络的瓶颈特征提取网络,并且将其被作为系统前端,为后端注意力模型提供区分性和鲁棒性更强的语音特征。其次,减少注意力模型中循环神经网络堆叠的层数,从而进一步降低迭代次数和参数规模。最后,改变瓶颈特征提取网络的输入和输出层规模并且对融合后的模型重新训练,提升系统的识别性能。进一步,提出采用基于连接时序分类算法作为目标函数训练瓶颈特征提取网络并且与注意力模型相结合,实现两种端到端模型相融合。实验结果表明,注意力模型在与瓶颈特征提取网络相结合后,识别准确率和训练速度均得到明显提升。