【摘 要】
:
随着智能语音技术的发展,说话人确认技术逐渐进入人们的日常生活与工作中。如何进一步降低说话人确认的错误率、如何在计算资源有限的终端实现说话人确认是目前智能语音处理领域的研究热点。本文探讨基于深度神经网络的说话人确认及其轻量化问题。论文的主要工作及贡献如下:(1)提出基于注意力空洞残差卷积循环网络(Attentive Dilated Res2Net Recurrent Network,ADRRN)的说
论文部分内容阅读
随着智能语音技术的发展,说话人确认技术逐渐进入人们的日常生活与工作中。如何进一步降低说话人确认的错误率、如何在计算资源有限的终端实现说话人确认是目前智能语音处理领域的研究热点。本文探讨基于深度神经网络的说话人确认及其轻量化问题。论文的主要工作及贡献如下:(1)提出基于注意力空洞残差卷积循环网络(Attentive Dilated Res2Net Recurrent Network,ADRRN)的说话人确认方法。该网络主要包括:卷积初始化层、一维空洞Res2Net组块、残差双向长短时记忆(Residual Bidirectional Long Short-term Memory,RBLSTM)组块、通道注意力统计池化层、加性辐角边界(Additive Angular Margin,AAM)Softmax分类器层。首先,从输入语音样本提取对数梅尔谱并作为ADRRN的输入。然后,ADRRN从对数梅尔谱中学习得到有效刻画局部空间信息和全局时序信息的说话人表征(Speaker Embedding,SE)。最后,将说话人表征输入后端分类器进行评分判决,例如余弦相似度量(Cosine Similarity Metric,CSM)和概率线性判别分析(Probabilistic Linear Discriminant Analysis,PLDA)分类器。采用等错误率(Equal Error Rate,EER)和最小检测代价函数(minimum Detection Cost Function,min DCF)作为主要的性能评价指标。采用选自Vox Celeb1和Vox Celeb2语音数据库的三个公开数据集进行评测。实验结果表明:本文方法在EER和min DCF方面均优于现有说话人确认方法;在计算复杂度和存储空间方面,本文方法也优于大多数基线方法。当采用不同时长语音段作为实验数据时,本文方法具有良好的泛化性能。(2)在(1)的方法中,用于提取说话人表征的神经网络ADRRN的计算复杂度高、存储空间大,不适合部署在计算资源有限的终端。为了克服上述方法的不足,本文提出基于深度表征分块交互的轻量说话人确认方法。设计一个深度表征分块交互模块。该模块包括:初始化层、分块均值池化层、交互层、融合层、分块标准化层。将该模块依次嵌入到ADRRN的卷积初始化层、一维空洞Res2Net组块和RBLSTM组块,从而降低ADRRN的模型复杂度。采用乘加累积操作数(Multiply-Accumulate Operations,MACs)和模型参数量(Model Parameters,MP)作为网络轻量化效果的评价指标。采用选自Vox Celeb1和Vox Celeb2语音数据库的三个公开数据集进行评测。实验结果表明:本文方法在保持或者稍微增加EER和min DCF的情况下,显著降低了计算复杂度和模型参数量。与主流的轻量说话人确认方法相比,本文方法在模型轻量化和说话人确认性能两方面的综合表现更好。此外,本文设计的深度表征分块交互模块可应用于其他深度表征提取网络的轻量化。综上所述,本文主要探讨说话人确认及其轻量化问题,提出基于注意力空洞残差卷积循环网络的说话人确认方法和基于深度表征分块交互的轻量说话人确认方法。本文设计多个实验,并与主流方法进行对比分析,验证本文方法的有效性。
其他文献
近年来,自然灾害及其引发的衍生灾害频发给人民大众的生命财产和生活环境造成重大的损害。灾害事件发生后,利用新型的通信技术构建物联网(Internet of Thing,Io T)系统以实时获取灾区相关信息并回传至控制中心,可以加快应急救援的反应速度,提高抢险救灾的效率。然而,物联网系统的有效运行依赖于Io T设备对灾区信息进行实时采集、传输和智能处理,因此面临着通信中断和能量受限两大严峻挑战。为了解
本文的研究对象是区组设计的自同构群.具体内容为:(1)区成分是正则群或Frobenius群的旗传递自同构群;(2)自同构群的不动点和导出设计的相关问题及应用.旗传递2-(v,k,λ)设计的分类问题主要起源于20世纪80至90年代Buekenhout等人对旗传递2-(v,k,1)设计(也称为有限线性空间)的几乎完全分类.从这以后,研究其他条件下的旗传递2-设计的分类是区组设计领域的热门课题.例如,直
有机半导体材料因质量轻、结构丰富、可实现柔性器件制备等优势广泛应用于有机太阳电池、场效应晶体管、二次电池等光电领域。在有机光电器件工作时,电极注入或者光生激子解离过程中,由于电荷的产生,有机光电材料容易形成具有离子化特点的带电物种。有机半导体材料因分子结构、杂质、水氧等因素易形成陷阱,陷阱的能级通常位于能隙中,使陷阱易于捕获电子或者空穴,降低载流子迁移率,导致材料的稳定性下降。材料中载流子的迁移,
由于聚噻吩及其衍生物的光电特性、高度稳定性和易于修改结构的特性,聚噻吩及其衍生物在涉及光电转化的应用中备受研究者们的关注。研究者们通过对聚噻吩进行改性,可以让其应用于光电器件的制备、光电催化产氢、电化学传感分析和光电化学传感分析。除此之外,由于噻吩的易修饰性,可以被引入到一些新型的功能分子结构中,赋予其聚噻吩的一些性质。柱芳烃作为一种新型的大环主体功能分子,被认为是超分子化学中的关键角色,常被用于
金属有机骨架(MOFs)是由金属离子/簇和有机配体组装而成的具有周期性孔道的多孔框架材料。MOFs由于具有孔径、孔形状可控和表面化学基团可修饰等独特的物理化学性质,近年来在催化领域受到了广泛的关注。但绝大部分MOFs仅含有微孔结构,极大地限制了反应物分子的传质和催化活性位点的可及性,从而导致其催化活性不高。基于以上关键科学问题,本论文围绕“大/介孔MOFs基材料的设计制备和催化性能”开展研究,通过
本文主要研究带电磁场的玻尔兹曼方程的扩散极限相关问题,包括周期区域和全空间上尺度化单粒子Vlasov-Poisson-Boltzmann方程组的不可压缩Navier-Stokes-Fourier-Poisson极限,全空间上尺度化双粒子Vlasov-Maxwell-Boltzmann方程组的不可压缩Navier-Stokes-Fourier-Maxwell极限,以及全空间上双流体不可压缩Navie
随着分布式能源广泛接入配电系统或终端用户,这些资源不仅可用于解决配电系统自身的运行问题,而且还能向输电系统提供一定的灵活性服务,输电系统和配电系统之间的联系变得更加紧密,现有输配割裂的管理模式将面临严峻的挑战。国内外的调研表明,输电系统和配电系统的相互协调有利于解决电压支撑、线路及输配边界点阻塞以及全局功率平衡等问题。按照现有的管理模式,电力系统输配协调优化问题本质上是涵盖输电系统和配电系统等多个
Boltzmann方程的流体力学极限理论,提供了气体运动的微观模型和宏观模型间的连接桥梁,具有重要的应用物理背景和理论研究意义.本文主要研究几类带外力场的Boltzmann方程的流体力学极限问题,包括带已知外力场和in-flow边值条件的稳态Boltzmann方程的不可压缩Navier-Stokes-Fourier极限,带电场的尺度化双粒子Vlasov-Poisson-Boltzmann 方程组初
鉴于世界正面临着气候变化的重大挑战,2020年我国正式提出到2030实现碳达峰、到2060年实现碳中和的战略目标。目前最重要的任务是实现能源体系的低碳转型,将生态环境保护和能源革命目标结合起来,实现绿色、低碳、循环的高质量协同发展。能源转型要求发电从化石燃料向氢能、太阳能和风能等可再生能源进行转变,提高能源效率。氢能作为一种理想的能量载体,具有能量密度高、零污染、零碳排放的优点,是缓解日益严重的能
5G向来被认为是行业数智化转型的基石,而5G-Advanced作为5G和6G的重要中间节点,具有灵活的网络架构,向灵活可重构的方向发展,连续/非连续载波聚合是5G关键特征之一,因此,开发灵活可变、可重构、支持多波段多标准传输的无线电收发机具有重要意义。传统的模拟通信系统实现多波段传输的方法是针对不同波段设计不同的电路,导致设备面积增大、成本提高和功耗变大,同时在可扩展、可配置、灵活可调性方面受限。