论文部分内容阅读
语音识别技术已经广泛应用于各类民用和军用领域,基于传统建模方法的语音识别技术相对成熟。近年来,随着端到端语音识别技术的提出与发展,语音识别系统逐渐克服了传统的模块化设计和独立性假设,模型具备了能够联合优化、易于部署等优点,并在很多识别任务中取得了最佳的识别结果,成为了极具发展前景的语音识别技术,是近年来语音识别领域的研究热点。当前的端到端语音识别模型主要依赖于深度学习技术,并利用一体化的神经网络进行建模,这导致了端到端语音识别存在三个突出问题。一是当前端到端语音识别对标注训练数据量的需求极大;二是数据驱动的模型机制存在很多优化空间;最后,端到端语音识别依赖于深度网络模型还会导致其缺乏可解释性。本文围绕端到端语音识别的这三个关键问题展开研究,具体工作主要体现在四个方面,分别为基于迁移学习的语音识别、基于主动学习和半监督训练的语音识别、对端到端模型的结构优化与训练优化、注意力模型的可解释性等研究。主要工作如下:1.基于迁移学习的端到端语音识别技术。基于数据驱动训练方式的端到端语音识别模型缺乏知识的引导,在训练数据量有限的语音识别任务中,因受制于特征表达能力有限、模型假设空间较多等因素,端到端语音识别性能不够理想。本文为此提出了一种基于迁移学习的端到端语音识别方法。首先在特征提取层面,提出了一种新的语音高层迁移特征提取方法。该方法基于数据增强的思想,通过多语言共享训练、迁移隐含层进行目标语言自适应训练,从而实现意大利语、德语、法语、西班牙语到英语的知识迁移,然后对权值矩阵进行凸非负矩阵分解(Convex Nonnegative Matrix Factorization,CNMF)来提取高层特征,使得特征具有更强的鲁棒性和高层语义表达能力。其次,基于高层特征,在建模层面进行迁移学习。基于非共享隐含层结构,提出两种联合建模方法,一种是连接时序分类(Connectionist Temporal Classification,CTC)-注意力联合模型,另一种是多CTC-多编码器层次注意力模型。通过迁移CTC算法对序列对齐的单调约束能力,以及共享不同分辨率模型之间的互补信息,达到减少建模假设空间的目的,从而在有限的训练数据条件下获得更好的模型性能。实验证明,本文所提出的迁移学习方法相比其他方法具有明显的优越性,且在TIMIT语料库中取得了最佳的端到端语音识别结果。2.基于主动学习和半监督训练的端到端语音识别技术。对语音数据进行标注通常较为耗时耗力,为了更高效的利用训练数据,降低模型对标注数据的依赖度,本文基于端到端注意力语音识别中的主动学习任务和半监督训练任务,提出一种新的语句评估算法——N-best信息密度(N-best Information Density,NID)算法。具体来说,首先在注意力模型中提出一种基于注意力的语句信息表示方法,基于该信息表示方法可以计算得到每条语句相对其他语句的平均距离,从而对决策时的语句信息密度进行评估。然后利用N-best解码概率,将语句的解码熵和基于注意力平均距离的信息密度相结合,计算语句的标注价值得分。在不同的主动学习和半监督训练实验中,均证明了NID算法相对其他算法的优越性,而对于扩展语句数量较多的任务,语句平均距离这一指标在决策得分中起到更大的作用。进一步对比不同算法的得分排序,证明NID算法有效引入了与其它算法互异的查询信息。3.端到端语音识别模型的结构优化与训练优化方法。端到端语音识别模型结构与训练算法在模型内部缺乏足够的约束条件,导致模型在训练时存在一定盲目性。本文重点针对注意力模型结构和训练的代价函数这两个方面展开研究。首先在结构优化方面,为了使得基于递归神经网络(Recurrent Neural Network,RNN)的注意力模型在计算注意力时引入更多长时信息与单调约束,提出一种融合多层编码器输出的注意力机制,在深度上对注意力机制进行扩展。使用连续多层输出乘积替代编码器的单层输出,进而计算注意力匹配得分,然后利用连续输出的残差连接机制计算注意力背景(Attention context)向量。进一步将多层注意力结构与多抽头机制结合,在广度上对注意力进行扩展。该方法基于多层输出的注意力构建多抽头结构,使得每个抽头在计算时均包含多层输出信息。其次,在训练优化方面,为了解决训练目标函数与测试评价指标的不一致的问题,同时也为了降低模型训练过拟合以及预测过置信的问题,本文将评价指标引入训练目标函数。提出了一种基于评价指标正则化的标签平滑训练算法。该算法将传统标签平滑算法中平滑项的常量系数替换为语音识别的测试评价指标,实现了自适应正则化标签平滑。从结构优化、训练优化、综合优化三方面展开实验,在TIMIT、WSJ和LibriSpeech三个语料库的实验结果表明,使用多层注意力机制显著优于使用传统注意力机制的识别率,且结合了多层与多抽头的注意力模型在识别率方面得到进一步提升。此外,无论是RNN注意力模型还是Transformer语音识别模型,训练优化算法相比普通训练方法以及传统的标签平滑训练方法在识别率方面有显著提升。最终的综合优化实验则在TIMIT、WSJ两个语料库中取得了当前最佳的端到端语音识别结果,在LibriSpeech语料库则取得最佳的RNN注意力模型语音识别结果。4.注意力语音识别模型的可解释性研究。基于注意力机制的模型是端到端语音识别技术中的重要建模方法,然而使用深度学习技术的注意力模型属于一种“黑盒(Black box)”模型,它的中间输出结果与训练过程缺乏足够的透明度与解释性。本文主要针对注意力语音识别模型,针对编码器的输出和训练动态规律展开两方面的解释性研究工作。首先给出一种注意力模型编码器输出的可视化方法,提出了一种基于注意力权重和先验知识的帧级强制对齐方法,结合t分布随机邻近嵌入(t-distributed Stochastic Neighbor Embedding,tSNE)降维算法对编码器的输出实现可视化;其次针对注意力模型的训练规律进行研究,将编码器带标注的t-SNE降维输出通过音素分段的方式进行不同模型之间的典型关联分析(Canonical Correlation Analysis,CCA),从而实现对音素级别的训练动态分析。实验对比了不同设置下模型的编码器可视化图,可视化图所展示的流形形状可以较好的展示出按照标注符号的顺序排列方式,并分析了不同模型输出与可视化图中符号分布的关系。实验进一步揭示了语音识别中不同类别音素在模型训练过程中的收敛性质,总结了收敛性质与相应识别率之间的关系。