基于深度神经网络的说话人识别生成式建模研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:gaoyunlonggao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于深度神经网络的说话人识别系统凭借对大量标注数据的非线性建模优势,较之传统概率生成式建模方法有着更好的性能表现。然而在实际应用场景中,基于神经网络模型的说话人识别系统泛化性严重不足:一方面,在复杂噪声环境下,系统性能将急剧下降,另一方面,基于集内数据进行分类训练的网络模型对于集外数据的泛化能力不强。本文针对现有说话人识别模型的泛化性能,重点研究了基于深度神经网络的说话人生成式建模方法。本文的主要创新点有:(1)针对噪声鲁棒性,提出了基于生成对抗网络框架的说话人深度特征表征提取方法。本文基于对抗架构设计了多任务多分类的说话人特征学习框架,通过对抗机制弱化非目标信息(噪声信息)对于目标信息(说话人信息)的影响,从而提升说话人表征的噪声鲁棒性。此外,为解决多任务多分类对抗网络框架中网络难以训练及标签限制的问题,本文进一步设计了基于生成对抗网络的噪声鲁棒性学习框架,充分利用生成对抗网络的匹配生成能力,弱化非目标信息影响,提高了说话人特征的抗噪能力,改善了带噪环境下的说话人识别性能。(2)针对泛化建模能力,提出了基于深度神经网络的PLDA建模方法。区别于传统PLDA训练方法,本文将PLDA的生成建模假设与深度网络架构相互关联,利用变分自编码器实现PLDA网络化建模过程。在实用场景测试集VoxCeleb1上,PLDA网络化建模获得比传统PLDA建模更好的识别性能,提高了现有说话人深度模型在复杂场景的泛化能力。(3)提出了基于注意力机制的通道信息增强方法。本文分析特征域不同通道信息贡献度的差异,提出了基于注意力机制的通道信息增强方法,使用Squeeze-and-Excitation网络学习不同通道维度对于说话人表征学习的贡献度,并且基于贡献度差异强化有用信息,弱化无用信息,从而提取更具有区分性的说话人特征表征。
其他文献
为了满足社会需求的不断发展,越来越多的建筑师将设计重心放置在内部空间的营造与刻画上。剖面能同时揭示建筑内部与外部的关系,展示被剖切实体与内部空间状态,回归建筑设计本真,逐渐成为研究热点之一。光影是剖面中穿行的主角,只有当建筑被剖开后,才能真正感受到内部空间与光影的设计内涵,展现建筑形体与光影的关系。博物馆作为一种重要的建筑类型,其内部功能对采光环境有着特殊的要求,内部空间也逐渐显露出复杂性的倾向。
在真核生物中,由mRNA到蛋白质的翻译过程是一个复杂的多步骤过程,有mRNA、核糖体、tRNA和起始因子的共同参与,真核翻译起始因子3是翻译起始过程中最大的起始因子复合物,包含13个亚基(eIF3a-eIF3m),是翻译起始因子家族中结构最为复杂的成员,几乎参与了翻译起始的所有步骤。eIF3亚基表达水平不均衡会影响整个eIF3复合物的表达,在某些情况下,eIF3的错误调控会导致某些疾病的发生,或者
随着氮化物半导体在新能源、功率电子及光电子器件方面的广泛应用,基于氮化物量子结构材料与器件的需求也在不断上升。AlGaN半导体由于具有可连续剪裁的直接宽带隙、高电子迁移率、高击穿场强等特性,近些年来已经成为化合物半导体的研究热点。AlGaN低维量子结构也逐渐进入人们的视野,尽管当前已取得了一系列的研究进展,但如何精确控制阱垒厚度,获得异质界面陡峭且无组分互扩散的二维量子结构生长仍然是亟待解决的难题
涡旋光束的光强呈环状分布,中心光强为零,并且相位呈螺旋分布,在传播过程中携带轨道角动量,并且涡旋光束在进行长距离传播时稳定性很强,在操纵微粒时无热损耗,因此涡旋光束为空间光通信、物理数学、光学计算和光学信息处理提供了不同的方法和途径。由于光学涡旋转换器的波长敏感性,研究人员在之前关于涡旋光束的研究中主要集中在(准)连续波领域。然而,近年来人们在超快光学领域取得了很大的发展和进步,这就促使人们在将涡
中红外(2-20 μm)超短脉冲激光器由于在气体传感、化学检测、光谱学、军事和医疗手术等方面的应用而日益受到关注。特别是超快光纤激光器和常规的固体激光器大有不同,光纤激光器系统小巧紧凑,拥有光束质量高、环境可靠性好等内在优势。掺杂稀土离子的光纤激光器锁模是一种公认的产生高质量超短脉冲的有效技术,但目前在中红外波段仅实现了几个固定波长的锁模,即~2 μm、2.8 μm、3.1 μm和3.5 μm。可
随着移动通信设备的不断发展,人们对手机摄像头和数码相机的要求愈来愈高。对设计人员来说,摄像头和应用处理器之间的带宽需求增加。本文介绍一种基于MIPI CSI-2(camera serial interface 2)协议标准,此协议为高清摄像头和应用处理器之间提供一个高速串行接口。本文主要设计MIPI CSI-2高速数据处理部分。D-PHY协议在高速传输模式下,信号最高传输速度是1.5Gbps。本文
质子交换膜燃料电池(PEMFC)、金属-空气电池(Metal-air battery)具有低排放或零排放以及高效率等优点,引起了人们广泛的研究。氧还原反应(ORR)是这些先进能源技术的关键反应。然而,ORR反应涉及多电子转移过程,其动力学迟缓,需要大量的电催化剂来降低反应能垒,加快反应速率。铂(Pt)基催化剂(PGM Catalysts)价格昂贵、资源稀缺、易毒化的问题严重阻碍了商业化应用。目前,
肠道微生物与宿主关系密切,对宿主具有增强肠道粘膜塑性、分泌消化酶帮助消化、抵御病原微生物等益处,因此近年来,肠道微生物的群落组成及其影响因素受到研究人员的广泛关注。东风螺和鲍是中国重要的经济养殖贝类,本研究以方斑东风螺、泥东风螺、皱纹盘鲍与“绿盘鲍”新品种为研究对象,利用16S rRNA测序和宏基因组测序技术,探究饵料与温度对四种海洋贝类肠道微生物群落组成及功能的影响。现有主要结果如下:1.16S
在过去的十年中,钙钛矿太阳能电池经历了突飞猛进的发展,光电转换效率由3.8%增长至25.2%,成为新能源领域一颗冉冉升起的新星。性能良好的空穴传输层材料对于钙钛矿太阳能电池的光电性能及稳定性至关重要。氧化镍(NiOx)材料由于其低廉的成本,相对适宜的能带结构和良好的稳定性,成为最常用的空穴传输层材料之一。制备NiOx层的方法大多需要在高温下烧结,与产业化所需的柔性基底不兼容,因此本文采用合成NiO
近年来,由于互联网爆炸式的发展,使得网络上的文本、音频、图片等数据近乎呈指数级上升。如何高效、准确地让计算机处理、识别、分析这些结构化和非结构化的海量数据,对业界和学术界都带来了新的挑战。让计算机处理文本,一般要经过文本表示步骤,也就是将文本恰当地表示成计算机能够处理的数据类型(如数值向量),以便后续进行特征工程等。一般传统的文本表示模型有布尔模型、词袋模型、LDA模型以及词嵌入(Word Emb