论文部分内容阅读
在实际应用中,由于测试环境与训练环境不匹配,语音识别系统的识别性能可能会急剧恶化。外部环境因素的影响和语音本身的变异性是导致环境失配的主要原因。本文从前端特征域和后端模型域两个方面,研究语音识别系统的声学与环境鲁棒问题,减小环境噪声、说话人的改变和其它语音变异性对语音识别系统的影响,提高语音识别系统在实际环境中的识别性能。
本文的研究工作主要包括:
(1)提出了一种基于隐马尔可夫模型(HMM)和并行模型组合(PMC)的特征补偿算法。该算法用一个包含较多状态的遍历结构HMM取代传统特征补偿算法中的高斯混合模型(GMM),来描述整个语音特征空间的概率分布;然后,用PMC方法调整该HMM的均值向量和协方差矩阵;最后,用最小均方误差(MMSE)方法,估计纯净语音特征向量。该算法在纯净语音特征估计时,考虑了同一单词样本内部不同特征向量之间的时变关系,因此取得了更好的补偿效果,识别性能明显优于基于GMM的特征补偿算法。
(2)深入研究了基于矢量泰勒级数(VTS)的特征补偿和模型自适应算法。首先根据倒谱域特征向量各维系数之间相关性较小且将多个高斯单元的数据合并估计噪声方差时加权因子对未知的噪声方差不敏感的特点,提出了一种具有快速收敛特性的方差估计方法,较好地解决了VTS算法的方差估计问题。然后,用遍历结构HMM取代GMM,估计纯净语音特征向量,进一步提高了特征补偿的精度。实验结果表明,用HMM进行特征补偿,其识别性能可接近后端模型自适应算法,且具有计算量较小、受状态数目的影响较小等优点,可以在识别率和计算量之间取得较好的平衡。最后,将所提算法从特征空间扩展到模型空间,给出了动态噪声参数的估计公式。从而将声学模型的动态参数和静态参数变换到测试环境,对含噪语音进行识别。
(3)在低信噪比环境下,含噪语音与纯净语音之间的差异较大,通过变换纯净语音声学模型得到的含噪语音声学模型不能很好地描述含噪语音分布。为了进一步提高低信噪比环境下的识别性能,提出了基于矢量泰勒级数的多环境模型自适应算法,用多个基本训练环境预测实际测试环境,并通过含噪测试语音与含噪训练语音之间的矢量泰勒级数关系式,将选取的基本环境声学模型的参数变换到测试环境。实验结果表明,该算法可以进一步提高较低信噪比时语音识别系统的识别性能,优于传统模型自适应算法和基于线性变换的多环境方法。
(4)为了解决基于变换的模型自适应算法中的线性假设问题,将多项式回归方法用于模型自适应,构建了基于最大似然多项式回归的非线性模型自适应算法。该算法在对数谱域的每个Mel通道上,用多项式回归逼近测试环境模型均值与训练环境模型均值之间的非线性关系。多项式系数通过EM算法和最大似然准则,从测试环境下的少量自适应数据中估计。该算法较好地克服了线性假设的缺陷,可同时减小环境噪声、说话人的改变或其它变异性因素对语音识别系统的影响,在噪声补偿和说话人自适应中识别性能均优于传统线性回归算法。
(5)研究了基于变换的模型自适应中的数据稀疏问题,提出了基于子带回归的模型自适应算法。该算法考虑了Mel滤波器组相邻通道之间的相关性,将全部通道划分为若干个子带,假设每个子带内多个通道的模型均值分量共享一个多项式回归环境变换关系,从而进一步增加可用的数据。该算法可以较好地克服数据稀疏问题,只需要很少的数据即可取得较好的自适应效果,尤其适合于少量数据时的快速模型自适应。