基于深度学习的声纹识别算法研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:ah12345679
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代科技的发展和人工智能的崛起,为生活带来了史无前例的便捷性,尤其是生物特征识别技术的使用已经和个人的生活息息相关。但这类基于生物特征的技术,例如指纹识别和虹膜识别,存在易被盗取或使用场景受限的问题,而声纹作为语音中能够表示说话人身份信息的特征,具有变化性和不易伪造性,可以有效避免上述问题出现在声纹识别技术的实际使用中。声纹识别是根据待识别语音中的声纹特征来辨别说话人身份的过程。按照任务的不同,声纹识别可以分为声纹辨认和声纹确认;再根据是否对语音文本内容做限定,又可以分为有文本的声纹识别和无文本的声纹识别。本文是针对研究难度较大的无文本声纹识别中存在的问题进行研究,主要工作如下:(1)针对MFCC特征或者Fbank特征在深度模型中使用会导致模型性能下降的问题,采用语音信号的声谱图或者对数能量声谱图作为模型的输入。声谱图可以较为完整的保留说话人语音中的身份信息,充分激发神经网络的学习潜力;对数能量声谱图不仅具有上述优势,还可以提高模型的抗噪性,为模型能够提取到更具分辨性的深度特征奠定良好的基础。(2)改变语音预处理方式可以获得更精确的特征,但无法在特征空间中增强不同类别之间的区分性,针对该问题,采用附加角裕度损失函数对特征空间中的决策边界进行划分,来达到约束特征类别聚类的目的。同时在残差网络Res Net34中添加平均池化层、Dropout层和BN层来减少模型在处理声谱图时增长的计算量以及提高训练效率。实验结果表明,在声纹辨认任务中Top-1和Top-5的准确度分别达到90.1%和97.8%,声纹确认任务中的等错误率(EER)降低到3.8%。与基于Vox Celeb1数据集的已有成果相比,三种指标的性能皆有明显提升。(3)针对如何实现既能占用较少计算资源又可以保留大模型良好性能的问题,研究模型压缩方法发现传统知识蒸馏存在局限性,故引入虚拟教师知识蒸馏模型的方法。在构建虚拟教师声纹确认模型的过程中,分别加入空间共享而通道分离的动态激活函数和附加角裕度损失函数,增强模型在深度特征提取和特征分辨上的能力。实验表明,在降低模型一半参数量和计算量的情况下,该模型在无文本声纹确认任务上的训练效率和泛化表达能力均得到了提升,性能指标也达到了和大模型一致甚至略高的效果。综上,通过对深度学习最新理论的研究以及在大型数据集上的实验分析可知,所用方法提高了无文本声纹识别的各项性能指标,并且能够在保证性能不损失的情况下降低模型所需的计算负载,证明了方法的有效性,实现了对声纹识别算法改进的目的。
其他文献
极限学习机(Extreme Learning Machine,ELM)具有学习速度快和泛化性能较强的优点,它被广泛应用于分类问题的研究中。由于连接权重的随机初始化,ELM的网络输出往往不够稳定。与ELM相同,单类极限学习机(One-Class ELM,OCELM)同样具有输出稳定性较差的缺点。由于能够加强模型的稳定性和泛化性能,集成学习一直被认为是机器学习领域中一个重要的研究分支。为了提高OCEL
缔合流体是一种具有特殊结构和性质的流体,通过对缔合流体物理化学性质的研究,将会为未来科学的发展和工业的进步提供有价值的见解。因为缔合流体在生物化学、物理化学及材料化学的研究中扮演着重要角色。本文以Aa型缔合流体为研究对象,在具体研究中,首先基于统计力学原理,结合经典流体密度泛函理论,构建体系的巨势泛函,并根据巨势泛函极小化原理计算流体的平衡密度分布,进而得到径向分布函数,并进一步结合Kirkwoo
衡量航空发动机性能优劣的一个核心指标是其推力大小,而转子的转速与发动机推力紧密相关。转子转速调节的快速性和动态精度是衡量航空发动机调速性能的主要性能指标,响应快的调速系统能增加飞机飞行的机动性,但往往伴随着较大的速度超调。转速超调不仅会增加燃油消耗,更可能会导致转子叶片的抖动甚至引发喘振。因此,除了满足对发动机的性能要求外,其安全保护问题同样重要,研究航空发动机调速控制的无超调动态响应,兼顾调速系
生成对抗网络是一种新型的深度生成模型,具有可以拟合任意复杂数据分布的超强建模能力,尤其在图像生成任务中展现了出色的性能,故一经提出就迅速在深度学习领域占领了主流地位。然而,生成对抗网络模型在集图像清晰、简单高效等众多优点于一身的同时也存在着不足之处,模式崩溃就是其面临的主要挑战之一。模式崩溃是指生成器生成的数据样本之间具有较高的相似性,即生成的数据样本集中分布在目标分布的部分模式上,多样性较差。模
近几年,卷积神经网络(Convolution Neural Network,CNN)已经成功应用于许多计算机视觉任务,它的核心是通过卷积运算、池化以及非线性运算,使网络能够在每一层的局部感受野内融合空间和通道信息建立高维特征表示。传统CNN通过执行线性组合和逐元素非线性运算,可以从输入图像中提取一阶信息。而二阶统计信息是对局部特征组按通道计算协方差矩阵、Fisher信息矩阵或基于向量外积运算得到特
对高维数据(如图像)的复杂生成过程进行精确建模是深度学习的关键任务。在许多应用领域中,变分自编码器(VAE)被证明对这项任务非常有效,具有解释和直接控制与数据生成中潜在隐藏因素相对应的潜在变量的能力。但是传统的VAE也有不足之处,那就是对于复杂的模型表现力较差,并且生成的图像往往比较模糊。本文将从改进模型目标函数和改变模型结构两个方面来解决上述问题。本文提出一种基于行列式点过程的变分拉普拉斯自编码
在机器学习领域中,解决分类问题的算法针对的大多都是基于均匀分布的平衡数据的分类问题,而对于非平衡数据分类问题,达不到理想的分类效果。在实际的应用中,少数类数据的分类是非常重要的,如医学诊断、风险管理等。因此,研究非平衡数据分类问题是非常有意义的。本文研究的是两类非平衡数据分类问题。主要分为以下三部分工作:首先,提出了一种基于代价敏感的Ada Boost_v算法。该算法在已有的Ada Boost_v
心房颤动是常见的心律失常疾病。从房颤患者体表心电信号中提取出的房颤信号(f波)对于房颤的研究与临床诊断具有重要价值。为满足医学研究和临床领域对f波提取准确性的要求,本文结合深度学习新技术以及信号稀疏分解、重构理论对房颤信号提取算法做出进一步研究,主要研究内容如下:(1)为解决QRST波群形态改变对房颤f波提取准确性问题,本文提出基于双向长短期记忆和稀疏重构的房颤信号提取算法。设计多层双向长短期记忆
铜纳米簇(CuNCs)具有前体廉价易得,制备成本低,合成速度快,生物相容性好及环境危害性低等优点,受到了众多研究者的关注。但是,CuNCs在合成过程中易发生团聚,裸露的表面也容易被空气氧化,导致其光稳定性较差,限制了CuNCs在生物传感领域的分析应用。因此,本文致力于改善CuNCs的光学性能,合成高稳定性和高荧光强度的CuNCs及其复合材料,并将其作为荧光探针构建了生物传感检测新方法。其主要研究内