论文部分内容阅读
说话人识别技术因其独特的方便性、经济性和准确性,在生物特征识别领域中具有广阔的应用前景。现有的说话人识别技术在理想条件下效果很好,但在实际环境中却由于各种因素的影响,识别效果明显下降。因此如何提高识别系统的鲁棒性已经成为本领域的研究热点。 说话人识别系统的鲁棒性问题涉及系统的各个部分。本文从噪声下的语音检测、鲁棒性特征、训练数据不足和噪声下的说话人建模技术、信道失真补偿等几个方面进行了深入研究,取得了以下具有创新性的成果: (1) 提出了一种基于置信度的动态多特征检测方法。该方法能够根据置信度,动态地选择最佳的检测参数对噪声下的语音信号进行检测。试验结果表明,新方法的检测能力比其它已有的三种检测方法更为稳健,在不同噪声下均表现出较好的检测精度: (2) 提出了一种基于多相滤波器组的基频检测方法。该方法首次将音频压缩中常用的多相滤波器组技术应用到基频检测中,并采用了一种新的清浊音判定方法。对比实验证明,该方法能够比其它常州方法更精确地检测清浊音端点,而且计算复杂度低(乘法次数减少>80%),计算速度明显提高: (3) 提出了一种改进的基频/能量轨迹特征,使此类特征不仅能够应用于文本相关的说话人识别,还能应用于文本无关的情况。在与文本无关的说话人识别验证实验中,动态的特征的引入使识别率提高了5.2%; (4) 提出了一种基于回归类的多特征空间建模方法(RC-MES)。该方法弥补了通常特征空间方法[4.6]昆淆说话人差异和音素差异的缺点,实验结果证明了在训练数据仅有10秒时,新方法能够使识别率提高4.4%; (5) 结合RC-MES方法,提出了一种新的噪声与说话人混合建模方法,较好的解决了有噪声以及训练有限情况下的建模问题。实验证明,新方法的识别率在不同噪声下以及训练数据20s时,均比以前的混合模型有所提高; (6) 提出了一种改进的特征映射方法,改进了原有方法中特征矢量与高斯分量之间的映射关系,更好地解决了特征域信号失真补偿问题。实验证明,新方法不仅更加稳健,而且识别等错误率(EER)从原来的9.86%降低到9.62%; (7) 提出了一种基于径向基函数网络的特征映射方法,利用神经网络良好的非线性函数逼近特点,以及RBF与GMM的天然联系,较好的解决了非线性信道失真补偿问题。识别实验证明,存在非线性失真时,RBF-NFM比没有考虑非线性失真的补偿方法效果更好,等错误率从10.98%降低到9.69%。