噪声环境下基于RNN的说话人识别方法研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:BEYONDPEAKER
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化时代的到来以及网络通信技术的发展,信息安全的保障已成为人类需要面对的一项重要问题。利用个人的生物特性,进行身份识别,成为了确保信息安全的重要手段。说话人识别即声纹识别,是一种通过语音的个性特征来验证说话人身份的方式。每个人的语音特征都极难被人模仿,采用说话人识别对识别对象的身份鉴别有着较高的识别率,与指纹、人脸、DNA等生物识别进行身份识别相比,说话人识别更方便,且进行识别所需要的成本更低,受到了国内外学者的广泛重视。本文针对如何提升语音信号的质量、提高特征参数的准确性,说话人识别系统在噪声环境下识别率低等问题,对说话人识别进行研究。对语音信号预处理过程进行了研究,采用双门限端点检测的方式去除了与说话人识别无关的声端,利用谱减法提升了语音信号的信噪比。阐述了线性预测倒谱系数(LPCC)、梅尔频率倒谱系数(MFCC)、伽马通频率倒谱系数(GFCC)的提取方法。提取语音信号的三种特征参数,并将三种特征参数在混合高斯模型(GMM)中进行训练与识别,得出相应的说话人识别率,并分析了说话人识别率与GMM混合数的关系。研究表明,GFCC相比于LPCC和MFCC特征参数更适合应用于GMM模型中,识别率更高;混合数取40时,GFCC和MFCC特征参数的识别率均达到最高。对循环神经网络(RNN)的研究,得知该模型存在信息利用率低及容易出现死神经元的缺陷,由此在原模型的基础上增加RNN隐含层层数,并将该层激活函数由传统的Sigmoid变为Leaky ReLU,对输入层的第一组与最后一组数据补零以增强数据有效利用率,构建计算速度快、收敛性好、识别率高的改进循环神经网络降噪模型(DRNN)。据此模型对语音库中采样率为6kHz、时长为2秒的随机语义语音信号进行研究,实验设定信噪比为-10dB、-5dB、0dB、5dB、10dB、15dB、20dB、25dB的三种噪声环境,用改进模型对MFCC和GFCC去噪,分析了传统模型与改进模型对语音识别率的影响。实验研究表明,不同信噪比情况下,改进DRNN模型与传统语音识别模型相比,说话人识别率均有提高,最大增幅达到50%;运用改进DRNN模型进行语音识别,随语音信号信噪比的增大,识别率逐渐增加,语音识别率最高达到93%。由此可知,利用改进的DRNN模型对含噪语音信号进行识别,可有效去除特征参数的噪声,提高语音识别率。适合应用于实际工程中不同背景噪声情况下的说话人识别。
其他文献
本文的研究对象是汉语访谈节目中主持人煽情的使用。本文在前人研究的基础上,以Vershueren (1999)提出的顺应理论为框架,对三个节目中主持人的煽情语言进行了定性的研究,旨从
采用粉末飘浮法制备了磷酸盐玻璃微球。通过使用差热分析仪,X射线衍射仪,扫描电镜和傅里叶变换红外光谱仪对所制备的磷酸盐玻璃微球的性能进行表征。研究结果表明:磷酸盐玻璃
唐玄度奉唐文宗诏令为复定石经字体而编成的《新加九经字样》,是唐代具有代表性的正字学著作。它为当时的经典用字提供了统一标准,确立了规范楷书的依据,其中所收重文不仅真实反
时代在飞速发展变化,人们对于文化的需求和对于周围环境的认识也在不断改变,人们对于文化艺术的需求和要求也有所提高。在新媒体环境下,如何进行视觉传达设计,如何满足人们的
以山西地区常见的树种臭椿和新疆杨为研究对象,在山西晋中进行树木年轮生态反应值的试验.根据两种树种的年轮宽度的测量结果,计算年轮宽度的离差值,并计算树种在该地区的树木
《元刊杂剧三十种》(以下简称《杂剧》)中的兼语句可分为致使命令类、情感表达类、助领伴随类、取予类、称封类和存现类六类,不仅数量丰富、句式繁多,而且结构复杂。本文对《杂剧
目的:研究长期运动和低脂膳食等生活方式的干预对胰岛素抵抗大鼠肿瘤坏死因子α(TNF-α)表达的影响。方法:130只大鼠随机分为:CON组,10只,低脂膳食喂养;HFD组,120只,高脂膳食喂养。喂养
模因论是由新达尔文主义(Neo-Darwinism)倡导者理查德·道金斯在其著作《自私的基因》(The Selfish Gene)一书中提出的用以解释文化进化规律的理论,它的基础是达尔文生物进化
副词是英汉语中的一种重要词类。英语副词的语法功能较多,接近实词,汉语副词语法功能相对较少,介于实词和虚词之间。本文通过对英汉副词相关知识的对比探究,介绍了副词的定义
经济全球化和高等教育国际化背景下,培养具有国际视野、良好外语能力且能够参与国际竞争的人才已经成为共识,而其中最为基础的是英语新闻听力能力。但是长期以来大学生的英语