论文部分内容阅读
语种识别(Language Identification, LID)是指自动判定给定语音段语言种类的过程。伴随着国际化趋势的日益深入,语种识别技术在多语言语音处理系统中的作用也越来越重要,业已成为多语言智能语音技术的不可或缺的关键组成部分之一。经过近五十余年的发展,对语种识别的研究取得了长足的进步,在某些特定任务下长时语音段的语种识别性能甚至超过了人工识别的结果。然而,现有语种识别系统的性能仍然不能满足日益增长的需求,尤其是面对短时语音段语种识别以及高混淆度的语言识别任务时。这主要是由于语言信息属于语音信号中的弱信息,隐藏在语音信号中,需要通过对语音中的信息进行提取和分析才能进行判定。判决结果的好坏强烈地依赖于语音信息段中的相关统计信息,而在短时语音段和高混淆语言任务中,现有方法对这些统计信息的估计缺乏鲁棒性。面对上述挑战,如何提取更适用于语种识别的特征以及提升模型的非线性分类能力是当前的研究重点。近年来,深度学习(Deep Learning)理论在诸多机器学习领域都取得了成功的应用,引起了学界和产业界的广泛关注。由于其模型具有深度非线性结构特性,深度学习模型具有较强的深层信息抽取和非线性建模能力。本文主要围绕深度学习在语种识别中的应用,从特征提取和模型构建两方面展开研究,主要包括以下内容:首先,本文提出了基于深层神经网络(Deep Neural Network, DNN)提取音素相关深瓶颈特征(Deep Bottleneck Feature, DBF)的语种识别方法。该特征通过训练一个音素状态相关的带有瓶颈层的深度神经网络,然后将底层声学特征通过神经网络,在深瓶颈层得到输出即为相应的DBF特征。该DBF特征能够有效的抑制底层声学特征中的语种无关噪声,特别是信道差异、说话人差异、背景噪声差异等噪声因素,并且能够将底层声学特征与具有物理意义的底层声学单元对应起来。实验结果表明,利用DBF特征结合全差异建模(Total Variability, TV)的语种识别方法DBF-TV,能够有效的提升语种识别的性能,特别是极大的改善了易混语种和方言、短时语音的语种识别性能。鉴于DBF特征的提取是基于特定语种的音素状态DNN网络而实现,本文还提出了基于不同语言音素状态任务的DNN提取不同语种相关DBF的并行语种识别方法,该方法能够融合语音信号在不同声学单元集合下呈现的语种差异,进一步提升语种识别的性能。其次,在DBF特征的基础上,本文提出了融合语种信息的区分性DBF特征(Discriminative DBF, D2BF)学习方法。该方法将基于音素的深度瓶颈提取网络作为初值,通过区分性的最大互信息准则(Maximum Mutual Information, MMI)结合高斯混合模型(Gaussian Mixture Model, GMM)将语种分类任务直接与DBF特征的提取过程建立联系,利用梯度下降法对网络参数进行调整,从而实现语种任务相关的特征学习过程。实验表明,较DBF特征而言,基于该方法提取的D2BF特征更加适用于语种识别任务,特别是在后端类差异补偿模型不容易实现的情景下,该特征能够有效的提升系统的性能。再次,在模型域层面,本文提出了基于DNN的DBF-TV模型的改进方法。该方法在对混合高斯模型进行参数估计时,利用DNN的区分性分类能力,将语种识别的数据按照音素状态进行聚类从而得到GMM模型估计时的相关统计量。在该模型中,每个高斯成分直接对应于某一个音素状态。实验表明,基于区分性GMM模型的DBF-TV系统能够进一步提升系统的性能。最后,本文对利用深度学习模型直接进行语种识别建模进行了一定的探索。由于语种信息的隐藏特性,对语音段的整体分析才能反应出语种特性,因此逐帧构建深度学习模型时容易损失掉语音信号的时序关系。本文主要比较了基于前馈方式的深度神经网络(DNN)结构和基于隐层循环的循环神经网络(Recurrent Neural Network, RNN)结构。实验表明,较前馈神经网络而言,利用RNN对语音信号的时序结构进行建模方法在语种识别领域中有着显著的优势。