论文部分内容阅读
说话人识别技术属于生物认证技术的范畴,主要依据说话人语音波形中表征说话人生理、行为的特征参数来自动辨识说话人的身份,具有广阔的应用前景。目前,说话人识别技术趋于成熟,实验室环境下的系统识别性能也达到较高水平,但是在噪声的识别环境下,识别系统的稳健性能仍较差,无法满足实用性要求。本文围绕识别系统实用化存在的问题进行研究,提出改进的半软阈值降噪算法以及改进的FCM算法来改善说话人识别系统性能。 在识别系统前端部分,首先提出一种改进的半软阈值降噪算法,利用小波的多分辨率分析特性滤除说话人语音的噪声污染,还原尽可能纯净的原始语音,有效地改善了识别系统的稳健性。接着详细分析比较说话人语音的预处理技术,包括端点检测和特征参数提取。由于传统的基于短时平均幅度和短时平均过零率的端点检测,即双门限端点检测法在低噪声比环境下准确率较差,本文分析了基于谱熵和基于C0复杂度的两种端点检测方法,并通过实验仿真,基于谱熵和基于C0复杂度的端点检测方法在低噪声比下也能准确地检测出语音的始末点。 在模式匹配部分,重点介绍了统计学习理论——支持向量机SVM,提出改进的FCM算法对SVM聚类,增强所选特征矢量的代表性;接着介绍了GMM理论及其统计特性,构建基于GMM-SVM的说话人识别系统,通过实验仿真分析改进的半软阈值降噪算法和改进的FCM算法对GMM-SVM识别系统性能的影响。