基于端到端模型的猕猴声纹识别研究

来源 :汕头大学 | 被引量 : 0次 | 上传用户:amdroid_JJ
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音信号作为人类生活与工作中最重要且不可或缺的交流手段,在学界研究领域与业界应用领域受到很高的重视。每个人的语音特征都是独一无二,从理论上讲,语音特征,或者被称为声纹,就像人类的指纹一样,几乎不会有两个人拥有相同的声纹。因此,可以通过对不同人的声纹进行识别,从而实现识别不同人身份的目标。而这种技术,就被称为声纹识别,或者说话人识别。与人脸识别,虹膜识别和指纹识别一样,声纹识别也属于生物识别技术。在过去的半个世纪,声纹识别技术得到了很多的研究与发展。当前的声纹识别技术大都围绕着人类的语音开展,并且传统的声纹识别技术步骤繁琐,难以从整体上进行优化。本文扩展了声纹识别技术的使用场景,将猕猴语音作为研究对象。同时在模型方面,研究了基于端到端神经网络的声纹识别模型,将猕猴发声语音映射到高维的嵌入空间中,通过比较猕猴的说话人嵌入距离判决相似度。针对猕猴的发声特点,本课题参考了例如MFCC,LPCC等常用的人工设计的输入特征,进一步引入了可解释性的卷积滤波器作为本文设计的端到端模型的输入模块,以猕猴音频的原始波形作为输入,在经过卷积滤波器的处理后输入到以Deep Speaker模型为核心的骨干网络。Deep Speaker网络能够通过前馈深度神经网络从语句中提取帧级特征。然后,利用池化层与长度归一化层生成语句级别的说话人嵌入。在网络设计中采用了三元组损失函数。同时引进了特征压缩与奖励模块,使模型能关注到通道间的关系,提升模型的性能表现。本文在猕猴语音数据集上进行了实验,通过与其他模型的对比实验,不同训练策略的对比实验,以及自身模型的消融实验,分析验证了该模型对猕猴声纹识别的有效性。相较于传统方法和改造前的Deep Speaker方法,本文所提出的模型在声纹识别上具有更高的准确率,在模型的优化上具有更高的整体性。
其他文献
全息对偶的方法作为弦论的一大重要成果,自被证明可以建立起(3+1)维时空中弱引力理论与其边界上低一维的强耦合场论之间的联系起,就被广泛的应用在了包括超导在内的一系列包含强耦合场的理论研究中。随着s-波、p-波以及d-波超导模型在不同引力模型,是否考虑物质反作用等情况下研究的日益深入,近来对全息超导激发态的研究也成为了该领域的一大研究方向并且引起了广泛的讨论。全息超导的基态是指用于模拟库伯对凝聚作用
学位
“人工智能(AI)+医药”产业是指将AI、机器学习等新兴技术应用到医药研发领域,用计算技术解读数据、刻画生命活动。“AI+医药”产业有望改变传统生化技术红利消退、新药研发成本持续走高的全球性困境。全球医药头部企业都已经在药物研发的各环节布局AI技术。我国生物医药产业正处在由仿制向创新迈进的关键爬坡期,供应端需要构建新技术驱动力。然而,想要真正实现“AI+医药”产业“大势所趋”的发展愿景,还存在一定
期刊
尖晶石型软磁铁氧体具有高电阻率、低损耗、较宽的适用频率范围、良好的化学稳定性等优点,在电子器件、通讯设备、计算机等领域得到了广泛的应用。随着器件不断向小型化、片式化、高性能化等方向发展,软磁铁氧体薄膜化也成为一种必然趋势。镍锌系铁氧体作为在高频应用中性能最好的软磁材料,其薄膜除了具备块材的优良特性之外,根据双各向异性模型,其共振频率有望进一步提高。对于尖晶石型铁氧体,相结构的好坏对磁性能有最直接的
学位
新药研发往往需要耗费漫长的时间,伴随着高损耗率和巨额成本。缩短研发时间及降低研发成本成为研究的热点,其中利用药物可能与设计以外的靶标分子产生作用的多药理学特性,使“旧”药物治疗新适应症便是一个可行的策略。药物靶标相互作用的正确识别和验证是药物重定位的基础,但是“旧”药物发现“新”靶标的过程充满随机性,且药物和靶标的多样性以及关系的复杂性使得药物靶标相互作用的实验费时且昂贵。通过计算辅助识别筛选出可
学位
<正>中国农业大学园艺学院眭晓蕾教授研究组揭示了黄瓜氨基酸转运蛋白家族成员Cs AAP2间接通过生长素极性运输参与黄瓜根系发育的分子生理机制。利用生物信息学发现,氨基酸转运蛋白AAP亚家族成员Cs AAP2在黄瓜根系中高度表达,Cs AAP2定位于根系中柱组织(维管束Vas和中柱鞘Per)的细胞质膜上。
期刊
随着交通传感器的广泛应用和新兴传感器技术的发展,交通流量数据显著增加,通过信息化方法收集和分析交通流量数据并进行短期交通流预测具备了可行性和必要性。然而,交通流是一个实时、完全非线性、高维、非平稳的随机过程,难以捉摸的交通流变化模式自然包含由内部和外部变化(包括交通事故和极端天气)引起的噪声,这使得短期交通流预测成为一项有挑战性的任务。在过去的几十年里,学者们提出了预测不同交通条件下交通流量的简单
学位
异常值检测是数据挖掘领域的研究热点之一,在医学、金融、电信等领域引起了广泛关注。随着科学研究的深入发展和任务复杂性的提升,数据的维度与规模在不断地扩大,这为完成高维数据的异常值检测任务带来了巨大挑战。并且针对不同类型的数据,需要开发不同的方法来完成异常值检测。对于表格型数据,虽然已经提出了许多相关技术,但其中大多数都面临着对象的邻域大小难以确定以及高维空间中的距离不可靠的问题。对于图像数据,基于异
学位
我国修建的数量众多的大断面隧道工程,极大地提高了交通的便捷度。然而,在软弱岩层中修建大断面山岭隧道时,施工过程并不顺利,经常会遇到掌子面失稳、地表塌陷等工程问题。对此,文章以乌鲁木齐绕城高速(西线)工程西山隧道为工程背景,针对软岩及复杂地质大断面长大隧道的施工问题,立足隧道施工过程中不同部位的受力情况,结合现场的工程实例,进行理论分析研究,设计数值仿真试验,并用极差分析法分析试验数据,对大断面软岩
期刊
光伏发电被认为是从根本上解决我国能源问题的有效途径。在近三十年里,太阳能电池的开发和应用取得了巨大进展。作为第三代的典型代表之一,染料敏化太阳能电池(dye-sensitized solar cells,简记为DSSCs),由于它具有生产制造成本低廉,环境友好无污染,器件兼容性良好等优势,吸引了广泛关注。然而与前两代传统太阳能电池相比,DSSC器件的光电转换效率(photoelectric con
学位
随着信息时代的飞速发展和人类生活水平的快速提高,柔性压敏传感器在塑造智能技术的方面发挥着举足轻重的作用。压敏传感器的两个主要性能指标分别是灵敏度和检测范围。针对这两个关键指标,科研工作者们设计了不同结构来满足其使用要求,包括传统混合式结构、平面微结构和三维多孔结构。相比较于传统混合式结构和平面微结构,三维多孔结构在兼顾灵敏度和应力检测范围方面表现更好。但是,目前针对三维多孔结构柔性压敏传感器的各项
学位