基于机器学习的声纹识别研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:lukexingmm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物特征识别技术由于其便捷和安全性已经被广泛地应用在当今社会中,而语音作为一种重要的生物特征,蕴含了非常丰富的信息,且由于智能设备的普及,说话人语音的采集成本也非常低廉。因此,对说话人的语音进行分析具有重大的实际应用价值。本文主要讨论了基于深度学习的说话人的声纹识别,并拓展讨论了语音的情绪识别。声纹识别部分又分为说话人辨认和说话人确认两个任务,而语音情绪识别将直接处理为一个多分类的问题。为了利用不同注意力机制的优势,本文提出了一种双路径的注意力机制,同时应用了自注意力和卷积模块注意力,在几乎不增加训练时间的条件下显著地提升了识别效果。前人基于三元损失提出了簇域损失,而本文针对说话人辨认任务又对该损失做出了进一步的改进,提出了加权簇域损失,该损失更加关注类间差异的增大,从而增加了临界样本被正确分类的几率;为了解决簇域损失在训练前期效率低下的问题,本文也提出了一种新颖的损失函数——临界增强损失,该损失额外关注了训练过程中每一步最容易且有必要优化的样本对,在结合了簇域损失之后,每一步中最难优化和最容易优化的样本都被同时考虑,也就加速了训练的进程,同时为簇域损失中的难损失赢得更多的训练时间,从而使得最终的优化效果得到进一步的提升。对于说话人辨认任务,本文在VoxCeleb1数据集上的Top-1准确率达到了92.0%,在CNCeleb数据集上的Top-1准确率达到了84.3%。对于说话人确认任务,当采用Voxceleb1数据集进行训练时,在验证集上的等错误率达到了5.1%,在扩大数据集VoxCeleb2上训练时,同一验证集上的等错误率降低到了3.52%。相比于基线模型,本文的改进方法均显示出了明显的优势。针对说话人情绪识别任务,本文提出了一种将Res Net与GRU结合的轻量神经网络,相比其他较新文献中的方法,本文用更少的参数和特征在IEMOCAP数据集上实现了相当的情绪分类结果,其中UA达到了67.9%,F1分数达到了0.675,参数量相对减少了16.2%。
其他文献
“少数民族高层次骨干人才计划”(以下简称“少民骨干”计划)自2006年实施以来,相关高校为中西部少数民族地区培养了大批高学历专业人才,但是“少民骨干”研究生在就业过程中
“企业间融资性买卖”在商品交易领域较多被作为规避法律风险的融资渠道所采用,但在司法实务中,却较难对其进行识别和定性。日照港运销部与山西焦煤公司借款合同纠纷案及相关案例中,法律关系的界定就难以定性。具体到主案例,其核心争点集中在两个方面:肇庆公司是否已代山西焦煤公司返还日照港运销部的预付款、企业间融资性买卖的法律关系如何确定。首先,民事诉讼主体应当坚持诚实信用,禁止在诉讼程序作出前后不一致的诉讼行为
本文选取了2015年至2019年的国务院总理两会记者会讲话及其汉英口译内容,对其中流水句的译法进行了案例分析。基于前人总结的汉语流水句翻译策略,笔者总结归纳了一些外交口译流水句的常见问题和实用方法。首先,根据文献调查和实例分析,笔者认为在汉语流水句翻译处理方面存在几大问题或挑战:第一,信息大的流水句较难准确表达;第二,流水句小句间的逻辑关系较难厘清;第三,口译流水句的信息不分主次。其次,通过汉语流
展会联络口译员通常负责翻译常规问答和非正式的商务对话。联络口译及商务会话这一特定的环境要求译员承担多种角色,而不仅仅是译员。尽管许多学者已经总结出诸多译员所承担的常见角色,但这些角色只是一种笼统的指南,并且先前的研究大多是从对话双方及译员的语言互动来探究译员在其中所承担的角色。因此,本报告旨在找出展会中联络口译员所应扮演的合适的角色,探究影响译员角色选择的语言及非语言因素以及译员应如何扮演好这些角
目的:探究HO-1修饰BMSC治疗大鼠无心跳体肺移植IRI的保护机制。方法:首先,以SD大鼠构建NHBD肺移植IRI的动物模型,以此来模拟临床NHBD肺移植IRI的情况,并以HO-1为目的基因通过慢病毒为载体来修饰BMSC,构建HO-1-BMSC,然后以肺动脉细针穿刺法将HO-1-BMSC注入受体。设立手术对照(Ⅰ组)、单纯BMSC(Ⅱ组)、慢病毒空载体-BMSC(Ⅲ组),HO-1修饰BMSC(Ⅳ
目的探讨高压氧对轻度认知功能障碍模型大鼠ERK信号通路的变化及认知功能的影响。方法SD雄性成年大鼠48只随机分为四组(n=12):空白对照组、MCI组、高压氧组(HBO组)、U0126组。连
在人才竞争激烈的背景下,教育发展成为各国关切问题。在发展本国教育的同时借鉴国外教育的优秀教育经验也是必不可少的。该翻译实践报告选取了Reinventing Education in America一书进行英汉翻译,希望对国内教育工作者以及家长有所启发,从而更好地进行儿童教育。本翻译实践报告以笔者参与的英汉翻译实践为基础,以目的论为指导,探讨文本翻译中专业术语及长难句等问题的应对策略及翻译技巧。在翻
背景:STAT3(信号转导和转录激活因子3)在肿瘤的发生和发展中起着非常重要的作用。口腔鳞状细胞癌(OSCC)是头颈部鳞状细胞癌最常见的类型。STAT3在头颈部鳞状细胞癌中的表达显
自然类在最近几十年来一直是吸引哲学家们关注的一个重要问题。什么是自然类,它是否可通过本质来定义,它是否真实存在于自然界中?关于这些问题,当代哲学家们展开激烈争论,并
在中国经济发展的新时期,转变发展方式、优化经济结构、转换增长动能等任务尤为艰巨、突出和迫切。基于产业融合的跨界并购是新时期并购重组的重要特征和发展趋势,与传统意义