论文部分内容阅读
随着信息化时代的到来以及网络通信技术的发展,信息安全的保障已成为人类需要面对的一项重要问题。利用个人的生物特性,进行身份识别,成为了确保信息安全的重要手段。说话人识别即声纹识别,是一种通过语音的个性特征来验证说话人身份的方式。每个人的语音特征都极难被人模仿,采用说话人识别对识别对象的身份鉴别有着较高的识别率,与指纹、人脸、DNA等生物识别进行身份识别相比,说话人识别更方便,且进行识别所需要的成本更低,受到了国内外学者的广泛重视。本文针对如何提升语音信号的质量、提高特征参数的准确性,说话人识别系统在噪声环境下识别率低等问题,对说话人识别进行研究。对语音信号预处理过程进行了研究,采用双门限端点检测的方式去除了与说话人识别无关的声端,利用谱减法提升了语音信号的信噪比。阐述了线性预测倒谱系数(LPCC)、梅尔频率倒谱系数(MFCC)、伽马通频率倒谱系数(GFCC)的提取方法。提取语音信号的三种特征参数,并将三种特征参数在混合高斯模型(GMM)中进行训练与识别,得出相应的说话人识别率,并分析了说话人识别率与GMM混合数的关系。研究表明,GFCC相比于LPCC和MFCC特征参数更适合应用于GMM模型中,识别率更高;混合数取40时,GFCC和MFCC特征参数的识别率均达到最高。对循环神经网络(RNN)的研究,得知该模型存在信息利用率低及容易出现死神经元的缺陷,由此在原模型的基础上增加RNN隐含层层数,并将该层激活函数由传统的Sigmoid变为Leaky ReLU,对输入层的第一组与最后一组数据补零以增强数据有效利用率,构建计算速度快、收敛性好、识别率高的改进循环神经网络降噪模型(DRNN)。据此模型对语音库中采样率为6kHz、时长为2秒的随机语义语音信号进行研究,实验设定信噪比为-10dB、-5dB、0dB、5dB、10dB、15dB、20dB、25dB的三种噪声环境,用改进模型对MFCC和GFCC去噪,分析了传统模型与改进模型对语音识别率的影响。实验研究表明,不同信噪比情况下,改进DRNN模型与传统语音识别模型相比,说话人识别率均有提高,最大增幅达到50%;运用改进DRNN模型进行语音识别,随语音信号信噪比的增大,识别率逐渐增加,语音识别率最高达到93%。由此可知,利用改进的DRNN模型对含噪语音信号进行识别,可有效去除特征参数的噪声,提高语音识别率。适合应用于实际工程中不同背景噪声情况下的说话人识别。