论文部分内容阅读
语种识别(Language Identification, LID)是对一段语音自动识别出其所属语言的种类的过程。由此可知,语种识别是一种针对语音段进行的模式识别,因此语种识别中的一个关键问题即是如何得到用以描述语音段的表示。语种识别中包含了特征提取和语音识别前端模型等一系列语音信号处理领域的核心技术,具有一定的科学研究价值。同时作为语音领域的一种前端处理技术,语种识别在多语种语音识别、跨语种通信系统以及军事监听等领域有着广泛的应用。传统的语种识别方法主要有基于音素搭配与基于底层声学特征的两大系统。传统方法中虽然长时测试性能取得了很大的进展,但仍存在着短时与方言识别率低等问题。随着深度神经网络(Deep Neural Network, DNN)的发展与成功应用,语种识别有了一个新的研究领域。在前端特征提取上,提出基于深度瓶颈特征结合全差异空间模型(Deep Bottleneck Feature-Total Variability, DBF-TV)该方法将深度神经网络中间瓶颈隐层的信息成功运用到语种识别中。在后端建模方法上,则根据DNN区分性建模的能力充分利用其输出层信息,如DNN/i-Vector方法,即利用DNN输出层音素状态后验重新估计通用背景模型(Universal Background Model, UBM)。然而对于一个以底层声学特征为输入、音素状态后验为输出训练得到的深度神经网络,我们认为该网络从输入层至输出层依次反映了语音从底层声学特征到高层语义与音素相关的较为完备的信息,而且各层信息之间具有互补性。因此本文就基于同一DNN不同层信息如何得到语音段的表示展开研究,具体而言即是同时利用同一神经网络的中间瓶颈层和输出层信息。首先,对于从深度神经网络输出层提取的音素状态帧级特征,可以认为其是在各帧上展开的音素状态序列,则每段语音可以通过计算其统计量作为语音段表示。得到的语音段表示是向量形式的,则可直接用区分性模型对其进行分类。具体则根据其特性,使用合适的核函数进行了支持向量机分类。并根据神经网络不同层信息的互补性,将该方法与DBF-TV进行融合,能够提升语种识别系统的性能。其次,在带有中间瓶颈层的深度神经网络上实现基于DBF的DNN/i-Vector基线系统,同时完成中间层DBF特征的提取与以输出层音素状态为依据的聚类,即在模型域对两者进行融合。具体地,利用DNN输出层的音素状态为聚类的依据,以其后验概率代替每帧特征在传统UBM模型中各高斯上的占有率,再结合DBF得到带有与音素状态相关的UBM。以此为基线,对DNN/i-Vector系统的输入特征DBF进行Acoustic Factor Analysis(AFA)建模,使其得到的模型能够更好地描述特征空间,以此进一步提升系统的识别性能。最后,从深度神经网络输出层提取的特征是一种帧级特征,类似DBF特征亦可以利用统计建模的方法对其在帧级特征空间上的分布特性进行描述以得到湃音段表示。然而此类特征一般都属于高维特征,需要在低维空间上对其分析。我们采用混合因子分析(Mixtures of Factor Analyzers, MFA)对特征进行低维空间上的建模方法研究,该方法是降维与聚类的结合,等同于对特征进行聚类后,再在每个聚类内做因子分析将其映射到低维空间上。相对将输出层信息的统计量作为语音段表示的单系统,该方法的性能有一定的提升,特别是在短时测试集的识别性能上。