论文部分内容阅读
近年来,深度神经网络(Deep Neural Network,DNN)技术在自动语音识别(Auto Speech Recognition,ASR)中取得了重大的突破,相比于传统的高斯混合模型(Gaussian Mixture Model,GMM)显著地提升了系统的识别性能。然而,像其他监督学习方法一样,DNN容易受到由于训练和测试条件不匹配导致的性能下降的影响,说话人自适应(Speaker Adaptation,SA)是为了解决说话人差异导致的不匹配问题,在基于神经网络的声学模型上研究说话人自适应技术成为语音识别领域的一个热门方向。本文分别从特征和模型的角度对说话人自适应方法进行研究,对这些自适应方法进行融合和改进,并深入探究基于卷积神经网络的说话人自适应方法,论文的主要研究工作如下:首先,针对声学模型中DNN对说话人信息辨别能力差的情况,引入基于辅助特征的说话人自适应方法,将包含说话人信息的特征与声学特征拼接共同作为DNN的输入,增强网络对说话人信息的感知能力。实验结果表明,基于辅助特征的说话人自适应方法有助于提升网络的区分能力,减小说话人之间的差异性,进而降低系统的单词错误率。接着,深入研究基于学习性隐层单元分布(Learning Hidden Unit Contributions,LHUC)的模型域自适应方法,并分别采取两种策略对原方法进行改进。从自适应方法之间的互补性角度出发,本文提出LHUC与辅助特征相融合的方法进一步提升系统的识别性能。此外,为了解决自适应阶段的数据稀疏问题,多任务学习(Multi-taskLearning,MTL)引入到LHUC自适应中,它通过加入额外的音素分类任务作为辅助任务帮助自适应参数更新。实验结果表明,基于融合的自适应方法能够有效地提升模型对特定说话人的匹配程度,进一步降低系统的单词错误率:基于MTL-LHUC的自适应方法通过扩大声学空间的覆盖范围弥补了稀少的状态分类问题,在有限的自适应数据条件下取得了更出色的性能提升。最后,本文对卷积神经网络(Convolutional Neural Network,CNN)框架的说话人自适应方法展开研究。为了利用LHUC这种具有诸多优良特性的模型域自适应方法,本文尝试对该方法进行改进使之适用于CNN的声学模型中,分别通过对比实验比较自适应层置于卷积层、池化层以及输入层的性能差异并证实该方法的有效性。同时,本文还提出一种基于i-vector的卷积层自适应结构,该方法通过一个变换矩阵将i-vector插入卷积层,新的卷积层结构在提取局部信息的同时也能够减小说话人之间的差异性。相关的实验结果表明该方法相比于基线系统有效地降低了单词错误率,并且仅增加了少量的参数作为代价。此外,将以上两种方法进行融合对系统性能有更进一步的提升,在无监督自适应模式下取得了最优的实验结果。