基于深度学习的说话人识别研究与应用

来源 :四川大学 | 被引量 : 0次 | 上传用户:scg5252
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在基于生物特征识别的身份核验系统中,说话人识别技术相较于其他生物特征识别技术具有很多优势。由于实际使用中的身份核验系统对识别准确率、系统鲁棒性有着极高的要求,而目前说话人识别技术水平还很难满足系统的这些性能需求,因此该技术仍处在技术研究阶段,并未大规模在实际场景中应用。为提升模型的识别性能和模型的鲁棒性,本文对说话人识别中的关键技术:语音特征提取、损失函数与识别模型结构三个方面进行了相应研究。本文主要工作内容和创新点如下:1、针对单特征存在的信息种类单一、信息量少的问题,提出一种有效的语音特征融合方案。语谱图特征参数相对MFCC和Filter Bank特征参数,其特征提取过程中计算步骤较少,保留的语音原始信息更多,这类特征更适合在深度学习中使用。本文研究了以语谱图为主要特征,以MFCC或Filter Bank为辅助特征的多种浅层特征融合方案,并最终找到了一种效果最优的融合特征。通过在基于卷积神经网络和基于循环神经网络的识别模型上的多组对比实验,验证了该方案的有效性和效果。2、针对GE2E损失函数中说话人中心向量计算方式存在的不足,提出一种基于说话人全局中心的端到端损失函数。对常用的Softmax、Triplet、GE2E损失函数进行比较和实验,证实了GE2E是一种性能优异的损失函数。但GE2E中的说话人中心向量是一个局部值,该值与真实的说话人中心向量之间存在较大误差,于是提出基于说话人全局中心的端到端损失函数GC_GE2E。通过说话人确认测试与说话人辨认测试,证明了GC_GE2E对说话人识别有效,且GC_GE2E的性能优于GE2E。3、基于本文提出的语音特征融合方案和损失函数,构建了基于多尺度卷积残差神经网络的说话人识别模型,该模型考虑到实际的基于说话人识别的身份核验系统对识别性能、系统鲁棒性等方面的要求,采用了卷积神经网络与多尺度残差网络等技术。多组对比实验结果表明,该模型具有较好的识别性能;跨数据集与跨语言的实验结果,验证了该模型的鲁棒性。4、设计并实现基于说话人识别的身份核验与识别应用系统,该系统基于本文上述研究成果,并结合语音识别技术共同构建。该系统可以实现说话人语音识别与动态口令验证,能够有效预防假冒闯入攻击;该系统提供了声纹注册、身份核验和身份识别功能,具有较好的应用价值。
其他文献
丰富的旅游平台积累了大量的UGC(User-Generated Content,用户生成内容)数据,其中对旅游过程的记录、体验与评价,反映了旅游者对目的地的认知和观点,在旅游学领域称之为目的地形象。旅游管理人员需要通过目的地形象的对比研究,发现目的地之间的差异,探索目的地形象随时间的演化趋势,为提高目的地竞争力提供形象支撑。现阶段基于旅游UGC的目的地形象研究,以单一目的地形象分析或构建为主;在少
区块链技术的发展成熟,使得智能合约的应用领域不断扩大,开发智能合约的门槛也逐渐降低,智能合约的安全性受到了前所未有的重视。由于智能合约具有防篡改特性,所以当部署上链后的智能合约出现漏洞或者合约的业务需要拓展时,基于传统模式设计的智能合约无法实现链上的局部升级,只能弃用原合约并重新部署一份新版本智能合约到区块链。这种智能合约的链下升级方式在弃用原合约时会严重影响用户的正常调用,并且原合约产生的所有数
随着我国经济的快速发展,旅游人数持续增加,旅游产业规模也增长迅猛,然而现今旅游服务商提供的旅游产品存在如下问题:旅游路线相似、同质化严重,导致景区拥挤、游客体验雷同,对消费者的吸引力逐年下降;旅游路线规划主要依赖于工作人员对景点及周边进行实地走访和调研,不仅需要投入大量资金和时间,而且难以实现跨城市和地区的长路线规划。针对上述问题,本文面向旅游服务提供商,基于旅游路线、用户生成内容(user ge
企业安全生产管理,就是在生产过程中应用一系列的调控,通过改变组织结构、加强人员培养等手段对生产进行管理,又区别于普通的人力资源管理,因为不仅需要对人力进行培养,保障人员自身安全,还对企业的可持续发展有着重要作用。一、企业安全生产管理现状及存在的问题1.安全生产标准化体系有待完善。尽管政府已针对企业安全生产制定统一的标准和章程,以及对各个要素进行具体规范和论述,在实际中,
期刊
工业物流是指在产品的制造过程中,对生产加工的工具、生产产品消耗的原材料和加工完成的成品进行运输周转的过程。将自动引导小车(Automated Guided Vehicle,简称AGV)应用于工业物流中并配合产品的生产节奏完成运输任务,能够提高运输效率,减少生产成本,进一步提高生产效率,是企业生产自动化、智能化的重要环节。AGV在工业物流的实际应用往往是多台小车协同有序的执行各个运输任务,将物品准确
仓储系统广泛应用于现代物流行业,在物流的良好、快速发展进程中扮演着非常重要的角色。多层子母车仓储系统是建立在传统仓储系统的基础上发展形成的一种高密集型仓储系统,其具有空间利用率高、作业灵活等特点。仓储系统的作业效率会直接影响整个仓储系统的计算成本,因此提高仓储系统的作业效率是非常有必要的。仓储系统中货位布置作为系统作业的关键一环,合理的货位摆放有助于提高其作业效率,所以对仓储系统的货位进行分配优化
基于视觉的轨道扣件缺陷检测方法作为一种可替代人工巡检方式的低成本、高效率方法,在铁路运输安全保障方面具有重要的研究意义和广泛的应用价值。传统方法由于使用的是低级视觉特征,在扣件定位以及扣件缺陷分类任务上存在准确率低、鲁棒性差、泛化性差等缺点,因此并不适用于复杂环境下的扣件缺陷检测任务。基于深度学习的方法相较于传统方法在准确率、鲁棒性以及泛化性上都有明显的优势,然而这些方法大都忽略了扣件目标的特性,
计算机断层成像技术(Computed Tomography,CT)是一种在临床诊断中广泛使用的医学成像技术。它使用X射线在不同的角度对人体拍摄一系列的投影同时与计算机处理相结合,从而恢复出人体内部软组织、血管和骨骼等横截面图像切片。然而,X射线作用于人体会产生电离辐射,可能会诱发癌症、白血病等一系列疾病。因此,研究降低辐射伤害的同时得到尽量清晰的CT图像具有非常重要的意义。目前降低辐射剂量的方式有
信息化时代,以深度学习为代表的人工智能技术飞速进步并逐渐渗透到各行各业。随着近年来航空运输业的蓬勃发展,每日需要处理的飞行计划数据量日益增加,而航路作为飞行计划中FPL报文的重要组成项,由于其复杂的编写规则,目前仍然主要依靠人工进行错误检查。为提高工工作效率、节约人工成本,本文将深度学习引入航路报文纠错领域,采用端到端的神经机器翻译方法,将报文纠错过程看作错误航路到正确航路的“翻译”过程,从而实现
空中管制的智能化发展使得对智能飞行控制提出了更高的要求。目前为解决终端空域繁忙、结构复杂等问题,智能空管系统一般使用移动时隙对飞机进行调度。这意味着当飞机进入终端区域接收到加入时隙命令时,飞机应具备自主寻找路径加入时隙的能力。然而在空域结构较为复杂的终端区域内,传统的飞行控制方法依赖于已有的航程数据、精确的数学模型,当飞机的连续运动发生突变时,不能达到飞行目的,给时隙的调整和加入造成困难。在这种情