基于端到端神经网络的说话人识别方法研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:rurucaihongru
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别又称为声纹识别,其主要任务有两种:说话人确认和说话人辨认。经过几十年的发展,说话人识别技术已经广泛应用于安防、金融和司法等领域。随着深度学习技术的迅速发展,端到端神经网络在说话人识别中有良好的识别效果。但基于端到端神经网络的方法仍然存在一些问题,如由帧级别特征转换为句子级别特征的过程中难以提取到更多有用的帧信息、现有的损失函数因为正负样本数量不均衡导致的识别性能不理想及训练收敛速度过慢的问题和在复杂场景(如语音回放攻击场景)下识别性能会变差等。
  本文针对以上不足,分别提出了对应的解决方法。本文的主要贡献如下:
  1.本文针对在端到端说话人确认任务中,帧级别特征转化为句子级别特征过程中一般采用平均池化方法,而采用平均池化方法相当于将每帧的重要性视为一致,但是语音每一帧中包含的说话人信息的重要性不均衡,从而用平均池化方法难以得到最优的句子级别特征的问题,提出一种基于阈值再加权注意力(Threshold re-weighting Attention, TRW)机制的ResCNN(Residual Convolutional Neural Network)端到端网络结构。首先,在由ResCNN网络得到的帧级别特征转化为句子级别特征过程中引入注意力机制的方法,通过训练选择出相对重要的帧,给予较大的权重;其次,若其中某些权重过小,说明此帧含有较少的说话人信息,因此将小于所有权重平均值的权重置零,其他权重重新根据现有权重再加权得到新的权重系数。本文通过实验表明,该方法能够更有效地将含有更多说话人信息的帧筛选出来,从而提高说话人确认系统的性能,同时扩展实验表明其也适用于噪音场景下的说话人确认。
  2.基于端到端的说话人确认任务中,损失函数的选择和设计非常重要。现在流行的端到端说话人确认损失函数中,GE2E(Generalized end-to-end)损失函数取得了很好的效果。但其在训练过程中选择了多个说话人作为负样本,而只有一个说话人作为正样本,因为正负样本数量不均衡而导致了识别性能不理想及收敛速度过慢的问题,本文提出一种基于辅助训练样本的损失函数(ATS-GE2E Loss, Auxiliary Training Samples-Generalized end-to-end Loss),以引入多个正样本进行辅助判断。首先,在批训练选择样本阶段,除了选择需要训练的样本外,还选择一定数量的辅助训练样本,辅助训练样本部分参与训练过程:只参与距离相似度矩阵和损失函数的计算,用来辅助判断;其次,重新设计了距离相似度矩阵,将辅助训练样本的相似度矩阵和原相似度矩阵进行级联;最后,设计了新的损失函数,将辅助训练样本相似度矩阵引入原损失函数的计算中。实验表明,本文提出的基于辅助训练样本的损失函数可以提高说话人确认系统的性能,使训练具有更快的收敛速度,并能够大幅度降低等错误率。
  3.在语音回放攻击场景下,说话人识别系统因为很难区分真实语音和回放语音,其安全性会遭到很大威胁。现有方法中,LCNN(Light Convolutional Neural Network)系统针对语音回放攻击场景起到了不错的识别效果,但其存在严重的过拟合问题。针对此问题,提出一种基于AOF-LCNN(Anti Over Fitting-Light Convolutional Neural Network)的端到端神经网络。首先,设计了一个新的DNN(Deep Neural Network)结构分类器作为后端分类网络,将该 DNN 结构级联在 LCNN 网络之后,形成一套新的端到端网络结构;其次,因为LCNN结构中的MFM(Max Feature Map,最大特征图)结构可能是造成过拟合的原因,因此在DNN后端结构中采用LeakyRelu作为激活函数,以抵消MFM的过拟合影响。本文实验结果表明,该方法一定程度上改善了过拟合的问题,提高了系统的鲁棒性,并同时降低了系统的等错误率,提高了识别性能。
其他文献
目的:评价~(18)F-脱氧葡萄糖正电子发射体层摄影术(~(18)F-FDG PET-CT)在预测肝癌肝移植术后肿瘤复发及判断预后中的临床应用价值。方法:回顾性分析我院100例肝癌肝移植受者术前PET-CT显像~(18)F-FDG摄取高低与肝移植术后无瘤生存率及肿瘤复发的关系。结果:65例(65%)肝癌肝移植受者术前PET-CT阳性(~(18)F-FDG摄取明显增高),35例(35%)呈阴性(~(
近年来,蜂窝车联网(Cellular-Vehicle to Everything, C-V2X)使得车辆与周围环境以及云端互联,达到降低事故率与优化交通效率目的,如何有效地协调干扰、分配资源、选择最佳通信模式成为提升蜂窝车联网性能的关键。本文以蜂窝车联网作为研究对象,主要研究了如何对该网络进行干扰协调管理,并采用协作通信策略降低网络中的能量消耗以及收到信息的错误概率。本文对蜂窝车联网的研究主要工作
近年来,随着人工智能及其细分领域的不断发展,人们对摘要器、信息抽取系统等文本生成器产出结果的自动评价研究产生了极大的兴趣。与此同时随着科技不断发展,高校逐步开始采用计算机来进行辅助教学,借助计算机来缓解由于师生比例不足带来的教学压力,如英语教师对学生作文的批改压力。在这样的背景下人们开始研发英语短文的自动批改系统,从单词语法的准确性、主题的偏离度、句法的复杂性等方面来对文本质量进行分析。语篇连贯质
本文主要研究了基于短文本深度学习的目标属性情感分析技术,包括目标属性抽取算法和目标属性情感分类算法。在目标属性情感分析领域,当前的深度学习模型仍然存在一些问题,比如目标属性抽取模型不能充分考虑上下文词语的语义关联和预测标签之间的约束关系;目标属性情感分类模型对复杂文本特征表达能力不足以及无法充分利用文本中不同目标属性的情感关联信息等问题。本文针对上述问题,从模型架构等方面对深度学习方法在目标属性情
精密单点定位(PrecisePoint Positioning, PPP)是指单台接收机利用精密的卫星轨道和钟差和现有精确函数模型或附加参数估计等方式消除与定位相关的误差项,实现高精度的绝对定位。PPP同时具备单点定位不依赖基准站即可实现单机定位和相对定位精度高的优点。实时精密单点定位(Real-TimePrecise Point Positioning,RT-PPP)和PPP技术的区别在于精密卫
学位
自由空间光(Free-space Optical,FSO)通信具有高速率、免许可操作、保密性高、低功耗、易于部署等优势,因此成为高速无线通信的最佳选择方案之一。但是FSO通信易受大气散射、吸收和湍流的影响导致激光信号被严重衰减;尤其在超长距离的 FSO 通信(如星地通信)中还存在高时延和指向误差等问题,从而导致通信性能极不稳定,甚至发生通信中断。目前常用自动重传和前向纠错技术来解决 FSO 在星地
近年来,语音识别技术逐步从科研机构走向市场,并广泛应用于智能控制、家庭服务、儿童教育等领域,这主要得益于深度学习的快速发展,让使用大数据集在实际应用中训练足够鲁棒的语音识别器成为可能。另外,语音信号处理技术在语音识别系统的应用也一定程度上解决了噪声环境下识别率下降的问题。  语音识别技术的主要目的是实现人与机器比较自然的语音交互,而不局限于文本的形式。在识别系统中,一般是使用理想环境下采集的纯净语
学位
近年来,全球卫星导航系统(Global Navigation Satellite System,GNSS)技术不断成熟和完善,其提供的定位结果已经完全能够满足人类在室外的位置需求。随着城市化进程的急速推进,人类在室内活动的时间所占比重日愈增加,对于室内位置的需求也日益增强。然而,GNSS信号在室内会受到现代建筑材料的遮挡,在穿墙后信号强度会迅速衰减,导致GNSS在室内的表现不佳。因此针对各种室内定
学位
随着互联网技术的飞速发展,网络环境也变得日益复杂,人们在享受互联网带来便利的同时,网络安全问题也逐渐成为了关注的热点。入侵检测系统是应对各种层出不穷的攻击手段的有效防御技术之一,它能够检测出当前的网络环境是否存在遭受攻击的痕迹,并根据入侵检测设备内部的协议产生相应的报警,进而便于网络管理员对网络实施防御措施。单一的入侵检测设备无法满足当前复杂多变的网络环境的需求,在实际的网络环境中,往往是多种不同
在互联网技术全面快速发展的时代,各种新兴网络应用平台(社交网络、电子商务)日益普及,使得大量的数据被搜集整合在一起。这些海量数据往往蕴含着宝贵且重要的信息,数据带给人们的价值无法忽视,对这类网络图形数据的研究也逐渐成为人们关注的对象。随着互联网上的数据生成快速化,数据量也随指数上升。数据中出现的冗余、虚假的信息无形中增加人们获取有效信息的查询时间与查询难度。面对海量、繁杂的信息,如何快速、便捷的获
学位