论文部分内容阅读
该论文的研究课题是噪声鲁棒性语音识别.因为语音识别系统在噪声环境中识别性能会严重下降,所以噪声鲁棒性是目前语音识别面临的主要问题之一.我们从特征撮到声学模型进行了一系列的研究工作,提出了一些新的鲁棒性语音识别方法.第一个方法是略帧法.略帧法在识别过程中对每帧的似然值加权,帧权值是帧信噪比的函数.略帧法克服了忽略特征法的缺点:一是特征参数可以使用倒谱参数;二是只需要通过帧能量估计信噪比,鲁棒性能较好.但略帧法不能弥补语音频谱受噪声的干扰.为了进行语音频谱的补偿,在第二个方法中我们提出了将离散全极点模型(DAP)用于特征提取过程中以提高特征参数的鲁棒性.DAP频谱克服了LP频谱峰值会偏向基频谱波的缺点,且在计算过程中可以对IS距离进行加权.我们用时频域信噪比对DAP加权.但该方法的性能受到信噪比估计精确度的影响.为了避开信噪比的估计,该文提出了第三个方法,一种新的子带加权自适应方法.该方法克服了传统子带法的两个缺点:一是保留了频谱带间的相关性;二是可以用自适应的方法对子带权值进行估计.我们分别提出了特征空间和模型空间的子带加权.根据最大似然自适应理论,分别提出了特征空间和模型空间子带权值自适应算法.以上的方法均基于HMM模型,在第四个方法中我们实现了基于HMM误差模型(HEM)的语音识别系统并提出了HEM的最大似然线性变换自适应算法,HEM是HMM的扩展,具有比HMM更灵活的拓扑结构.它将HMM的一个流(状态串)扩展到两个流,分别称为滤波模型和残差模型,而HMM是当残差模型为单高斯分布时的特例.与此相对应,HEM的自适应算法比HMM自适应自满MLLR更为灵活,我们可以分别对HEM的滤波模型和残差模型进行自适应.为了拒识插入噪声和集外词,在该文第五个工作中我们实现了基于填充模型和噪声模型的确信度判决法.我们使用所有声学模型单元的全连接网络作为填充模型,并对一些常见的短时噪声或突发噪声建立了噪声模型.该文还完成了一些相关的研究工作.在特征提取上,我们提出了一种结合MFCC和PLP的P-MFCC特征参数;提出了倒频域差分系数;对几种归一化能量(峰值归一化、均值归一化和标准归一化)的识别性能进行了比较.我们测试了基于能量和基于模型的端点检测的性能并对方法作了改进.为了在数据量有限的情况下提高音段切分的准确性,我们提出了一种自适应迭代切分标注方法,我们还提出了一种基于HMM的汉语韵律词基频模型.该模型既能有效地完成基频曲线生成,又能在大语料库语音合成中提高合成单元选择的准确性.