基于RSCNN的说话人识别方法改进研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:oupser123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别是生物认证技术的一种,通过从原始语音中提取出代表说话人身份特点的特征量来区分不同说话人,相比于其他生物认证技术具有采集方便、用户接受度高的特点,因此在当下的应用日益广泛。随着互联网和大数据时代的到来,深度学习凭借其相对于传统浅层模型良好的表示能力逐渐在说话人识别中占据主导地位。本文主要关注一类基于原始语音输入的卷积神经网络(Raw Speech Convolutional Neural Network,RSCNN)模型在说话人识别中的应用,该类模型能够直接从语音数据中学习出合适的原始说话人特征,相比基于频谱特征输入的深度学习架构能够更少地依赖于特定先验知识。本文工作建立在相关研究人员对RSCNN的研究工作基础之上,并对其进行改进。首先,针对相关研究工作中模型融合方法对计算资源消耗较大的缺点,本文提出在RSCNN的第一个卷积层中同时使用两种宽度的卷积核并将各自提取的特征进行融合,并与模型融合方法在识别精度和训练耗时两个指标上进行实验对比。三个公开数据集上的实验结果表明,本文提出的特征融合方法在精度与模型融合方法相差不大的情况下能够显著缩短训练耗时,是一种有效的方法。其次,本文在两种尺度特征融合的基础上继续加入另外两种尺度的特征,使用4种不同宽度的卷积核并行提取4种不同尺度的特征并进行融合,实验结果表明在一定范围内融合特征的尺度越丰富则模型的识别性能越好。最后,本文设计了模型迁移实验,将三个公开数据集上训练的RSCNN模型迁移到自建数据集上并进行微调,实验结果证明迁移后的RSCNN模型能够在新数据集上提取具有一定程度不变性的说话人特征,且原数据集中样本多样性越强则训练出的特征提取模块对新数据集的泛化性越好,本文提出的特征融合方法对迁移后模型的性能提升越大。
其他文献
为更好地保护环境,更合理地利用资源,研究人员利用废弃棉籽蛋白,将其加工转化为一种生态友好型的绿色材料。本论文针对纯棉籽蛋白制成的塑料存在机械强度低、耐水性差、热稳
干式双离合自动变速器(简称:干式DCT)凭借其较高的燃油效率和简单的内部结构,在市场上占有一席之地。然而,传统干式DCT液压系统存在着结构复杂及起步、换挡性能差等缺点严重
近些年,超构材料凭借着对电磁波的强大控制能力,引起了越来越多的科研人员的关注。作为超构材料的二维化,超表面由按照一定规律排列的亚波长人工基元组成。通过对人工基元的
目前在土壤和水环境中已检测到了四环素类抗生素的存在,它会通过饮用水和食物链对人类和生态系统产生影响。因此,寻找一个简单可靠的测量方法非常重要。薄膜扩散梯度技术(Dif
充填体作为一种非均质复合材料,内部存在大量初始微裂隙,这些初始损伤的分布及含量决定着充填体宏观力学性质。以往对充填体失稳破坏机制的研究多集中于宏观或是微观这样单一
CO2作为温室气体最主要的组成部分,它的大量排放可能会引起严重的环境问题,但是CO2作为工业原料却是一种不可多得的绿色能源,因此实现CO2的有效捕集是十分必要的。聚离子液体
混凝土板-剪力墙结构是一种用平板楼盖代替梁板楼板的结构体系,这种结构体系有利于增加楼层净高和提高施工效率,便于工业化生产,满足我国建筑工业化的要求。传统的板墙结构体
高超声速飞行器(Hypersonic flight vehicle,HFV)具备高马赫数飞行条件,能够大幅度缩减战场上敌方采取应对措施的时间,同时能够降低世界上现有防御系统的有效性,已成为新式导
结构的可靠性是衡量工程结构质量与安全的重要指标,因此可靠性理论、方法与应用是科学研究和实际工程中的重要课题。结构的可靠性分析和优化设计是可靠性理论的重要组成部分,
在这个经济金融高度发展,并逐步走向全球一体化的时代,金融已然成为一国最为重要的产业之一。高度发达的金融市场不仅代表着一国强大的经济实力,还是影响全球资本市场的走势