【摘 要】
:
声纹识别是一种根据说话人语音来辨别说话人身份的技术,属于生物认证方式的一种。随着深度学习技术在声纹识别技术中的应用,无论是在注册语音时长还是识别准确率上,声纹识别技术的性能都实现了新的突破。当前声纹识别技术面临的挑战主要包括短语音能力、抗噪声能力、跨信道差异能力、抗假冒攻击能力以及抗时变能力。本文主要研究方向是如何在更短的说话人语音中提取出更多的能够表征说话人身份的有效信息。基于上述问题,本文开展
论文部分内容阅读
声纹识别是一种根据说话人语音来辨别说话人身份的技术,属于生物认证方式的一种。随着深度学习技术在声纹识别技术中的应用,无论是在注册语音时长还是识别准确率上,声纹识别技术的性能都实现了新的突破。当前声纹识别技术面临的挑战主要包括短语音能力、抗噪声能力、跨信道差异能力、抗假冒攻击能力以及抗时变能力。本文主要研究方向是如何在更短的说话人语音中提取出更多的能够表征说话人身份的有效信息。基于上述问题,本文开展了研究,主要工作如下:第一,对声纹识别技术中的相关知识做了简要介绍,包括声纹识别技术的相关语音原理、发展历程、基本流程、度量指标以及当前研究难点与热点。第二,基于残差神经网络(Deep Residual Network,Res Net)结构的文本无关声纹识别研究,包括声纹辨认与声纹确认,实验结果表明采用Res Net的声纹识别系统对于不同说话人的判决不是很明显,经分析之后,原因可能是测试语音容易受说话人情绪、生理状况、说话语速等多种因素的综合影响,单纯使用Res Net网络并不能最大化的学习到说话人语音中的有效特征。第三,结合上述分析,在Res Net的基础上融合注意力机制,其主要思想是对Res Net在每一层提取的Feature Map特征进行加权计算,对于说话人身份有效的特征赋予较大权重,无效信息则赋予较小权重,最大可能在更短的语音中学习到更多有效的特征。最终实验结果表明,融合了注意力机制之后的Res Net模型对于说话人特征的学习更加全面,相比单纯采用Res Net结构,实验结果有明显提升。第四,基于提出的融合注意力机制的残差神经网络方法开发了声纹识别演示系统,该系统由声纹注册、声纹确认、声纹辨认、声纹追踪四个模块构成,经过真实环境测试,该系统可以完成演示功能。本文在AISHELL2数据集(2006人)上进行模型训练(共1000h),测试集(904人)为Libri Speech数据集(504人)与部分维语数据集(400人),实验结果从注册语句数量与模型的Embedding特征向量维度两个方面进行对比,在相同的注册语句数量与相同的Embedding特征向量维度下,实验结果表明,相比单纯的使用残差神经网络,融合了注意力机制的残差注意力神经网络对于声纹辨认与声纹确认问题都有明显的提升,当说话人注册语句数量为1时,融合了注意力机制的Res Net网络结构的实验结果优于单纯使用Res Net网络的实验结果,使用融合了注意力机制之后的网络可以从说话人语句当中提取出更多代表说话人身份的特征,抑制对于说话人身份特征贡献度小的信息。
其他文献
随着人们对太阳能、风能、氢能和潮汐能等可再生能源的勘探利用和新型便携式电子设备与柔性储能器件的快速发展,传统的能量存储体系已经逐渐不能满足低成本、高功率密度、高
土壤风蚀是造成干旱半干旱地区土地沙漠化的主要原因,由于气候变化与人为活动的影响,我国的土壤风蚀在干旱区呈现总体减小、局部恶化的趋势。准东煤田是全国最大的整装煤田,煤炭资源丰富,但生态环境极其脆弱。煤矿开采、运输、装卸等人为活动会对周边地表土壤产生剧烈扰动,从而加剧土壤的风蚀程度,但当前有关露天煤矿开采等活动对土壤可蚀性能影响的定量研究十分匮乏。因此,本文以准东矿区内红沙泉煤矿及其周边共727.87
本研究以小麦-玉米常规施肥模式T2:100%氮肥+0%菜粕,为对照,设置6种肥料管理模式,配施肥比例为施氮量比例,即T1:空白(不施肥),T2:100%化学氮肥+0%菜粕,T3:0%化学氮肥+100%菜
水稻根系有着吸收水分、矿物质及固持植物体的重要功能,另外根系还有繁殖、合成生长调节剂和贮存合成有机物质的作用。本研究以RM109/密阳23的F4代含有2840个家系的重组自交
近年来,随着互联网持续高速发展,生活节奏变得越来越快,人们往往没有时间和耐心去看冗长的文章,各种社交媒介也迅速普及,微博作为新兴的社交媒体平台之一,因其可以随时随地发表自己对于事件的观点、看法,抒发自己的感情,实时的发布和获取信息,并且还可以通过转发,点赞的方式分享信息,不受时间和地点的限制而被广泛使用。微博中蕴含着大量的信息,是舆情的重要来源,有效的对微博数据进行获取和分析,得到热点话题,并做话
依托华润电力曹妃甸电厂二期2×1 000 MW超超临界燃煤发电机组基础工程,运用有限元软件ANSYS建立基础实体模型。本文通过几个方面进行了系统研究:结构优化时改变低压缸横梁高
随着乘用车的普及率越来越高,螺纹连接这种乘用车上最常见的连接方式发生故障的事件也屡见不鲜,螺纹连接点夹紧力的设计及控制则会直接影响其安全性和可靠性。目前多数汽车生产商在螺纹连接点设计上采取的是沿用已有的类似设计的方法,再通过整车耐久测试加以验证。这种方式不仅效率较低,而且开发成本较高。论文在此背景下,结合常见的客户抱怨及汽车主机厂的现场生产实际,从螺纹接头夹紧力需求的分析出发,采用VDI 2230
悬索桥索塔横梁施工是上构施工过程中重要的工作内容,是操作难度大、风险性高、工期较长的分项工程,利用预制装配化施工的概念,改进索塔横梁施工方法,缩短施工工期和减低高空作业风险,是一项较好的创新工作,对其展开的研究具有较好的工程使用价值。本文依托实际工程,针对悬索桥索塔中横梁预制段整体提升的方案可行性,以及其重要设备能力进行了具体分析研究。主要研究内容与结论如下:(1)合理利用LSD液压提升系统、工字
本文以北朝文学为立足点,将其文学进程分为三个阶段,分别从北朝、南朝、初唐三个方面去考察这三个阶段,力图挖掘出人们对北朝文学完整的动态的认识。第一个阶段是从五胡十六国至北魏孝文帝改革之前,北朝人对此时的文学接受主要集中在文教事业上。南朝人对这一时期的文学接受主要集中在前凉,此时南北有了文化往来,前凉的文学作品得以在南方流传,并得到了南方文人的认可。到了初唐,此时人们也同样认为这一阶段的文学主要是表现
自1985年中国银行发行第一张信用卡以来,我国信用卡已经历了萌芽、探索、萎靡和成长期,至今35年的发展历程。随着中国社会的进步,各项金融政策的出台,互联网的普及,移动支付快速扩张,网上借贷工具层出不穷,这些都使得实体银行零售业务面临着巨大的挑战。整体来看信用卡盈利能力强,信用卡业务成为近几年商业银行主推的业务之一,各家银行不断规划与改进其信用卡营销策略,为了最大限度争取信用卡客户资源。由于消费需求