论文部分内容阅读
说话人识别是生物认证技术的一种,通过从原始语音中提取出代表说话人身份特点的特征量来区分不同说话人,相比于其他生物认证技术具有采集方便、用户接受度高的特点,因此在当下的应用日益广泛。随着互联网和大数据时代的到来,深度学习凭借其相对于传统浅层模型良好的表示能力逐渐在说话人识别中占据主导地位。本文主要关注一类基于原始语音输入的卷积神经网络(Raw Speech Convolutional Neural Network,RSCNN)模型在说话人识别中的应用,该类模型能够直接从语音数据中学习出合适的原始说话人特征,相比基于频谱特征输入的深度学习架构能够更少地依赖于特定先验知识。本文工作建立在相关研究人员对RSCNN的研究工作基础之上,并对其进行改进。首先,针对相关研究工作中模型融合方法对计算资源消耗较大的缺点,本文提出在RSCNN的第一个卷积层中同时使用两种宽度的卷积核并将各自提取的特征进行融合,并与模型融合方法在识别精度和训练耗时两个指标上进行实验对比。三个公开数据集上的实验结果表明,本文提出的特征融合方法在精度与模型融合方法相差不大的情况下能够显著缩短训练耗时,是一种有效的方法。其次,本文在两种尺度特征融合的基础上继续加入另外两种尺度的特征,使用4种不同宽度的卷积核并行提取4种不同尺度的特征并进行融合,实验结果表明在一定范围内融合特征的尺度越丰富则模型的识别性能越好。最后,本文设计了模型迁移实验,将三个公开数据集上训练的RSCNN模型迁移到自建数据集上并进行微调,实验结果证明迁移后的RSCNN模型能够在新数据集上提取具有一定程度不变性的说话人特征,且原数据集中样本多样性越强则训练出的特征提取模块对新数据集的泛化性越好,本文提出的特征融合方法对迁移后模型的性能提升越大。