基于对抗学习的鲁棒语音识别技术研究

来源 :西北工业大学 | 被引量 : 0次 | 上传用户:yanmu1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着基于深度学习(Deep learning,DL)的语音识别技术在实际场景中的大规模应用,提升声学模型的鲁棒性(Robustness)至关重要。一个鲁棒的声学模型应当对噪声、信道、说话人以及口音等扰动因素不敏感,在真实复杂的声学环境中依然能够表现出良好的性能。近年来,以神经网络(Deep neural network,DNN)为载体,深度对抗学习(Deep adversarial learning)在数据生成、特征学习和模型自适应等问题上都取得了突破性进展。本文从深度对抗学习的角度出发,结合语音数据的特点,深入研究了鲁棒声学建模过程中的多种对抗学习方法,包括域对抗训练(Domain adversarial training,DAT)、对抗样本(Adversarial examples)和对抗正则化(Adversarial regularization)。本文主要贡献总结如下:(1)提出一种基于无监督域对抗训练的鲁棒声学建模方法,学习域不变特征表示,在Aurora-4标准噪声鲁棒实验上,取得了 37.8%的相对错误率下降。由于噪声、信道等干扰因素的影响,语音识别中声学模型训练和测试数据之间存在分布不匹配问题。本文在声学模型训练过程中采用无监督域对抗训练方法,学习和噪声等干扰因素无关的特征表示,移除目标域原始数据中与识别任务无关的属性,有效提升了噪声条件下的识别准确率。(2)提出一种有监督和半监督场景下的DAT方法,在960小时口音语料库上,半监督DAT取得了 7.5%的相对错误率下降。完全无监督地利用目标域训练数据无法充分挖掘目标域数据的信息,为了最大限度的利用目标域数据,本文在有监督和半监督的场景下,针对口音问题,研究DAT的有效性。实验表明,DAT在半监督场景下仍可以显著提高模型的识别准确率。(3)提出一种基于对抗样本的动态数据增广方法,在两个标准鲁棒语音识别语料库上,取得了 14.1%和5.7%的相对错误率下降。在模型训练过程中,本文采用快速梯度符号法(Fast gradient sign method,FGSM)动态生成对抗样本,并使用生成的对抗样本在模型训练过程中动态进行数据增广。本文还将基于对抗样本的数据增广方法和教师/学生(Teacher/Student,T/S)学习策略进行结合,进一步提升了识别性能。(4)提出一种基于对抗正则化项的损失函数进行端到端语音识别模型训练的方法,在1000小时的标准中文语料库AISHELL-2上取得了 12.2%的相对错误率的下降。对抗样本说明了深度神经网络模型的不平滑性,即输入端的极小扰动可以导致输出端的极大变化。基于注意力机制的端到端模型采用一个神经网络建模整个识别过程,更易受到对抗扰动的的影响。结合语音序列的特点,本文提出一种基于快速梯度符号法和局部分布平滑(Local distributional smoothness,LDS)的对抗正则化损失函数进行端到端模型训练的方法,有效地提高端到端模型对噪声的鲁棒性。(5)将基于对抗样本的数据增广和对抗正则化应用于关键词检出任务,当误唤醒率为1.0%时,取得了 31%至45%的相对误拒绝率的下降。在实际应用场景中,关键词检出任务(Keyword spotting,KWS)的误唤醒和误拒绝难以避免,且难以复现。本文将这些错误视为一种对抗样本,进一步研究了基于对抗样本的数据增广和正则化训练方法。同时,结合KWS任务的特性,采用了不同的对抗扰动策略,显著地降低了模型的误唤醒率和误拒绝率。
其他文献
随着电网规模日趋扩大、时变因素日益增多和非线性逐渐增强,基于数据关联分析或者基于物理机理分析的电网暂态稳定评估方法在应用中面临着更多的挑战。充分利用数据方法与物理方法的互补特性,将二者联合,有望实现电网暂态稳定评估方法综合性能的提升,以应对这些挑战。本论文在国家重点研发计划(项目号:2018YFB0904500)课题“互联大电网高性能分析和态势感知技术”以及国家自然科学基金(项目号:5187703
在对幼儿进行德育的过程中,合理地融入红色文化,并将其作为幼儿园阶段德育的重点内容,能够在一定程度上促使幼儿园阶段的德育活动变得更加有效。因此选择一些比较丰富与比较完整的教学内容,能够让幼儿从小打下文化的根基。在教学的过程中,教师需要顺应幼儿的天性,让幼儿能够自然地达到整体发展水平。
人口的增加和城市基础设施建设用地的短缺给制定可持续的土地利用政策带来了巨大的压力。城市中普遍存在的棕地是指空置、污染、危险、闲置或废弃的场地;干扰环境的完整性。棕地重建(Brownfield Redevelopment,BR)是一项可持续的土地利用政策,旨在重新开发这些退化土壤,并将其融入社区。BR是一种复杂的项目,包括将棕地变为绿地的所有活动。BRP(Brownfield Redevelopme
学位
幼儿园的文化建设是幼儿园教育成果的表达,能够帮助幼儿园教师在教育中加强对于文化育人。通过丰富的幼儿园文化建设能够使教师在教育工作中更好的发挥文化作用。因此,在进行幼儿园文化建设的过程中,要加强对于科学发展的运用,通过科学的不断发展,使幼儿园文化建设能够带来新的生机,促进幼儿园文化建设的发展。
科学发展是这些年在各个行业都能够看到的发展理念,对于教育行业来说也是非常重要的。我们需要全面贯彻科学发展的观念,要时刻谨记以人为本,要不断地促进我国社会向前发展。科学发展观念是我国提出的深入人们生活中的一个发展观念,要求我们大家同时进行。学校一直是社会关注的一个重点,我们学校可以为社会培养更多优秀的人才,所以学校更要以科学发展为主旋律去建设学校文化,幼儿园是学生刚开始上学的学校,也会对学生的启蒙教
随着各种医学成像技术的快速发展,医学影像在现代医学中的地位越来越重要。对医学影像技术专业人员有很大的需求缺口。医学影像技术专业的毕业生就业前景广阔,生源质量越来越好。多模态影像设备如SPECT/CT、PET/CT、PET/MR将解剖影像和功能影像融合,更有利于对病变进行定位甚至定性诊断,在精准医学中有很大的应用价值,极大推进了核医学诊断临床应用的进程,对大型核医学仪器的使用操作人员也有了更高的要求
一直以来小波分析都是应用数学和工程技术等领域研究的热点问题,近年来,随着信息和计算机技术的快速发展,多小波和小波框架由于其自身的优点已广泛应用于信号处理、数据压缩和大数据分析等领域.对多小波和小波框架的研究已成为小波分析领域的重要研究课题,受到了学者们的高度关注,成为当下的研究热点问题之一.本文基于多分辨率分析(multiresolution analysis,MRA)的思想,主要研究多小波和小波
与传统的电磁兼容测试环境相比,混波室内形成的电磁场是统计均匀、各向同性和随机极化的。由于腔体的高品质因数,较小的输入功率可形成很大的场强,且能模拟受试设备所处的实际电磁环境,非常适用于进行辐射敏感度试验。搅拌模式混波室辐射敏感度试验方法具有更高的测试效率,在航空和军用装备领域应用前景广阔,但其场的变异性较大,可能导致试验结果具有更大的测量不确定度。IEC 61000-4-21:2011等标准尚未对
量子干涉测量可以实现光子量级的信号检测,是微弱信号精密测量的技术手段。作为评估测量性能的关键指标,量子干涉测量的相位灵敏度受到广泛关注,相位灵敏度的理论极限、影响因素和提升方法的研究是国内外重点关注的问题。本论文围绕量子干涉测量的相位灵敏度开展了四个方面的研究:相位灵敏度极限的研究;相位灵敏度内在影响因素的研究;相位灵敏度外在影响因素的研究;相位灵敏度提高的新方法研究。本文首先完成了相位灵敏度极限