论文部分内容阅读
随着科学技术的发展,说话人识别在深度学习背景下不断有新突破和新进展。目前占主导地位的是以身份认证矢量I-vector为基础的说话人识别系统。本文重点研究了如何改进传统特征参数,以及如何通过深度学习对说话人识别建模这两个问题。从不同的输入类型和不同的神经网络两个方面出发,探究系统识别性能。研究如何利用深度学习消除人类感知语音和计算机处理语音之间的辨识偏差鸿沟,如何拉近计算机所能学习到的听觉特征和人所能感知的特征之间的距离,实现计算机更接近于基于理解的人类识别结果这一目标。基于以上研究重点,本文内容包括以下几个部分:(1)研究并改进了基于I-vector的说话人识别算法研究传统特征提取算法,设计并搭建了基于I-vector的说话人识别系统,分析现有的I-vector优缺点,在此基础上改进I-vector身份认证矢量的提取过程,为之后作为输入,和不同神经网络结构连接搭建说话人识别系统作铺垫。(2)研究了基于LSTM和DBN的说话人识别方法构建时序网络长短时记忆网络LSTM模型和静态的深度置信网络DBN的说话人识别模型,最优化设置网络参数值以及每一层网络的输入输出节点数,将普通特征参数和改进后的身份认证矢量作为输入,探讨不同层数的深度置信网络和不同特征参数类型组合后对说话人识别结果的影响。(3)研究了基于语谱图和CNN的说话人识别方法将不同语音段的语谱图通过一定的采样,统一至相同的大小,消除不同长度音频时序不同的问题,将之作为CNN的VGG网络和残差网络的输入,最优设置两个网络结构的层数和节点设置,进行说话人识别实验,探讨在CNN网络下能否使说话人识别系统性能得到提升。并且进行网络融合尝试,增加双层DNN网络,验证性能是否有提升。本文在研究了传统特征参数身份认证矢量的基础上,重点探究了深度学习的说话人识别建模问题,将传统特征和深层学习架构联系在一起,对不同特征之间的系统性能横向和纵向进行了对比,探究对说话人识别系统来说最优的特征参数,哪种参数能最大化保留说话人个性信息,更有身份辨识度,以及哪种神经网络结构最适合说话人识别系统。