论文部分内容阅读
发音知识是一种从声学角度描述语音特性的由领域专家设计的描述方式。其中富含内容、音色、情感、环境等诸多信息,已被证实有助于对语音识别系统性能的提升。然而传统研究对于发音知识的应用主要局限于证据融合器(Evidence Merger)和词网格重打分(Lattice Rescore)。随着深度学习的兴起,语音识别系统框架发生了翻天覆地的改变。本文的研究重点在于如何结合深度学习框架,通过更好地融合发音知识,来对声学模型进行建模,从而达到提升整体系统性能的目的。本文的主要工作及创新点如下: 提出了一种基于多目标学习的发音知识提取方法。该方法结合神经网络结构灵活的优势,通过多目标学习策略将发音属性分类作为副任务以提升主任务发音建模单元识别的性能。本文针对每个音素可能同时包含于多个发音属性的问题,采用分块Softmax输出结构,此举也有利于确保主副任务梯度数量级的一致,方便参数的调节。在该算法的基础上,本文还提出了利用融合器进行进一步分类。实验不仅包括不同数据集、不同任务和不同参数的训练情况,还包括不同数据量和非匹配训练数据的情况。实验结果证明多目标学习作为一种正则手段具有抑制过拟合的作用,另外其副任务也提供了有利于隐层节点增强区分性的信息,有利于模型的收敛。该算法在数据量不足和数据不匹配的情况尤其有效。 提出了一种基于深层变换的发音知识特征。考虑到多目标学习在数据量较为充足情况下性能提升有限,本文提出了一种深层变换的发音知识特征域提取框架,包括深度级联发音特征和深度瓶颈发音特征两种结构。利用发音属性信息通过深度神经网络多层次的非线性变换,将其中有利于识别的区分性信息抽取出来并降维得到深度变换特征。与模型域的多目标学习不同,该特征从特征域融合发音知识,以提升声学模型的建模能力。实验探究了两种结构的优劣和隐层的选择,以及特征维度的选择等,并结合多目标发音知识提取框架,获得了明显好于基线系统和两个独立改进的结果。 提出了一种基于统计量建模的发音知识特征。经过观察,我们发现逐帧提取的发音知识特征虽然对系统性能有提升,但局限于性能提升不明显且提升效果不稳定。我们分析认为其主要问题在于帧级别发音特征与目标senones相关度过高,以及前后信息不足导致估计不稳定。我们还发现逐帧计算后验概率的深度神经网络声学模型有一个天然缺陷,即其无法对句级统计量做出响应,这也是句级的归一化和说话人级别的归一化始终有提升效果。考虑到以上情况,我们提出了基于统计量建模的发音知识特征。该特征包含整句中发音知识的伪Baum-Welch统计量信息,通过全变化空间矩阵进行建模,得到该句的统计量特征。该特征与传统i-vector特征的不同之处在于输入特征不是常规梅尔滤波器特征或线性感知系数,而是发音知识对应的基本特征。该特征弥补了深度神经网络句级/说话人级别建模的无力,并通过全句统计的方式变得稳定,在INTEL语料库相比基线系统获得了3.5%的绝对性能提升。我们还将该特征与多任务学习结合,其识别错误率分别在数据充足和数据不足的情况下获得降低。 提出了一种基于递归神经网络的统计量建模方法。在传统i-vector特征提取过程中,我们使用通用背景模型来对声学背景进行建模,并通过全变量空间来得到低阶子空间。近年来,我们发现对于声学建模问题,高斯混合模型的性能远不如同等情况下的深度学习模型,而深度学习模型中,基于长短时记忆的递归神经网络在相同情况下往往取得优于传统全连接神经网络的建模效果。藉此,我们假设每个神经网络的senones后验输出可以用单高斯近似表示,于是我们用基于长短时记忆递归神经网络的后验概率替代传统基于高斯混合模型的通用背景模型,提取Baum-Walch统计量,并利用全局变化空间模型来获得其低阶子空间,从而得到统计量模型。