论文部分内容阅读
为了提高说话人辨认系统的性能和在实际应用中的鲁棒性,本论文在高斯混合模型特征变换、特征加权补偿变换和自适应直方图均衡化三个方面进行了研究,主要研究成果包括:1.提出了基于嵌入变换的对角方差矩阵高斯混合模型的多步聚类算法。为了简便计算,高斯混合模型中的方差矩阵通常直接用对角方差矩阵代替,因而会对相似度的计算产生损失。为了弥补由于采用对角方差矩阵而引起的相似度损失,提出了基于嵌入变换的对角方差矩阵高斯混合模型的多步聚类算法。该方法采用嵌入变换的对角方差矩阵来建立模型;同时将多步聚类算法融入其中,使高斯混合模型能找到其最适合的模型混合数。与普通聚类期望最大(EM)算法相比,多步聚类算法所需的EM估计次数明显减少;与聚类EM估计的GMM方法相比,在同一语音库下平均计算时间降低了约50%,错误识别率平均减少1.4%;在自制和公开的两个语音库下,与嵌入变换的GMM估计方法相比,新方法都可以直接达到说话人辨认错误识别率的最佳点,达到了识别效果和识别时间的统一。2.提出了基于高斯混合模型的加权特征补偿变换的抗噪声算法。针对特征加权算法的局限性和归一化补偿变换方法的特性,提出了基于高斯混合模型的加权特征补偿变换的抗噪声算法。一方面根据帧信噪比对特征值的贡献大小进行加权;另一方面根据说话人识别的声学特性对模型输出的似然得分进行变换,补偿了加权因子在某些环境下的局限性。对于不同信噪比的平稳和非平稳噪声环境,在自制语音库下,与特征加权算法相比,该算法平均识别率提高了2.74%和2.82%;与归一化补偿变换方法相比,平均识别率提高了3.56%和1.34%。在另一公开语音数据集下,与特征加权算法相比,该算法平均识别率提高了3.02%和2.56%;与归一化补偿变换方法相比,平均识别率提高了3.9%和1.14%。3.提出了基于统计模型的自适应直方图均衡化方法。针对说话人特征的统计特性和直方图均衡化在说话人识别中应用的不足之处,提出了应用于说话人辨认中的自适应直方图均衡化方法。该方法首先用较大的区间长度来构造直方图的累积函数,然后根据各区间内特征值频率增量的大小来自适应确定该区间是否需要再划分以及划分的程度。采用这种方法不仅使计算量降低,而且得到的变换特征值的分布更符合实际特征空间,从而进一步提高了噪声环境下说话人辨认系统的识别率和鲁棒性。在同一测试集下,研究两种常用经典噪声(即White和Babble),与普通直方图均衡化方法相比,自适应直方图均衡化方法的平均识别率分别提高了3%和2.9%。在另一公开对比测试集中,该方法的性能同样有相似的提高。