论文部分内容阅读
说话人识别是从语音信号中提取说话人的个性信息来自动识别说话人身份的技术。目前的说话人确认系统对纯净语音已经可以达到很高的识别精度,但实际环境中不同类型的信道和语音采集设备对语音造成的畸变带来了训练环境和测试环境之间的失配,使得说话人确认系统的识别率急剧下降。因此,如何提高系统的鲁棒性已成为本领域研究的关键。
本文介绍了GMM-UBM框架下说话人确认系统的原理,包括前端信号处理、GMM-UBM模型建立、打分模型,以及系统性能评价方法和评测标准。然后主要针对说话人识别系统中,语音信号的信道畸变影响以及造成的训练和测试信道的不匹配,所导致的系统性能大幅下降,分别采用了基于特征域、模型域和得分域的补偿方法,进行有效的信道补偿。
在特征域,采用了RASTA滤波、倒谱均值减CMS、实时CMS、方差归一化CVN、特征映射Feature Mapping等几种方法。在这里提出了一种有效的信道分类方法,可以达到99%的分类正确率,完全满足Feature Mapping以及后续其他算法的需求。其中,特征映射取得了较好的鲁棒性能改进,EER和minDCF相对基线系统分别下降了44.97%和33.20%。
在模型域,采用了说话人模型合成SMS、基于MAP的模型自适应和信道子空间投影CSP几种方法,并根据实际情况设计了多种方案,对多种情况进行了测试。基于MAP的模型自适应获得了最小的EER和minDCF,同时其实现比其余两种方法更加简单。其中最具实用性能的MAP(only GMM)方案相对基线系统,EER和minDCF分别获得76.45%和55.51%的相对下降。
在分数域,采用了测试归一化T-norm、零归一化Z-norm、话筒归一化H-norm以及这几种方法的结合。其中ZT-norm获得最小的EER和minDCF,相对基线系统分别下降了50.60%和43.81%。另外,特征域和模型域方法分别与分数归一化方法进行了结合,获得了更好的性能提高,很大程度地减小了测试和训练环境之间的不匹配。
最后,基于上述研究,在VC++6.0和SQL Server2005上实现了一个说话人确认系统平台。并详细介绍了系统设计方案、数据库管理方案、具体注册和认证模块使用方法,并且简单介绍了系统的应用前景规划。