论文部分内容阅读
语音是人的固有特征,获取设备成本较低,不受位置限制,因此用语音来鉴别说话人身份的说话人识别技术有着许多特有的优点,在很多场景中甚至是不可替代的。但说话人识别技术发展至今,仍然面临很多的困难和挑战。受发声器官的影响,鼻腔堵塞时会发出声纹畸变的鼻塞音,对说话人识别系统的识别率产生影响。因此文章将研究鼻塞音与正常音的差别,分析几种说话人识别系统的性能及其受鼻塞音影响的程度,对在实际应用中选择说话人识别系统提供指导。本文首先分析了语音信号特征,按语音特征提取系统流程,介绍了语音的数字化方法;通过实验分析了预加重、分帧加窗、谱熵法端点检测这一语音预处理过程的必要性;介绍了梅尔倒谱系数提取声纹特征的原理。通过上述操作将原始语音转化为可输入系统的数字信号。接着研究了正常音和鼻塞音的发声机理,并通过语谱图技术对鼻塞语音进行分析,找出鼻塞语音与正常语音的具体差别。然后研究传统说话人识别系统中矢量量化法和高斯混合模型法的原理及性能,通过实验找到最佳系统参数,对比最佳系统的识别率受鼻塞音的影响并分析实验数据。最后研究神经网络说话人识别系统中基于集成学习思想优化的BP神经网络法和循环神经网络算法的原理及性能,通过实验找到最佳系统参数,对比最佳系统受鼻塞音影响并分析实验数据。通过实验实现了两类四种算法,测试了单鼻塞音和双鼻塞音在4个、8个、16个和24个识别人数的准确率。整体上,传统算法中矢量量化法比高斯混合模型算法的鼻塞音识别率高,高斯混合模型训练时间短,矢量量化法识别时间短。神经网络算法比传统算法受鼻塞音影响小,受影响程度也不随人数增加而改变,优化后训练时间和识别时间都较短,但基于系统特性在增加识别人数时神经网络要重新训练所有样本,传统算法只需训练增加的样本。在实际应用中选择识别方法时可综合考虑。