基于CNN-TDNN和迁移学习的噪声鲁棒性语音识别

来源 :广州大学 | 被引量 : 1次 | 上传用户:bao302
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年由于引入了基于深度神经网络(Deep Neural Network,DNN)的声学模型,语音识别系统在安静环境下取得令人满意的识别效果,然而这些系统在信噪比相对较低的环境中(如吵闹的街道,商场)仍然表现得相对较差,并且噪声鲁棒性仍然是阻止语音识别系统大规模应用的关键问题。基于此,论文对已有的噪声鲁棒性语音识别方法进行分析和总结,并且主要针对后端声学建模部分展开研究,论文所做的创新与具体工作总结如下:首先,论文采用DNN语音增强技术作为噪声鲁棒性语音识别系统的前端,通过构造大量且包含多种信噪比的带噪语音与干净语音一起送入模型中,对模型进行受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)的无监督预训练和反向错误传播算法的有监督微调,最后解码,对语音波形进行重构获得完整的可听的语音波形文件。其次,论文首次将卷积神经网络(Convolutional Neural Network,CNN)与时延神经网络(Time Delay Neural Network,TDNN)进行结合构造声学模型用于噪声鲁棒性语音识别,具体如下:首先通过对时延神经网络(TDNN)隐藏层中参数矩阵进行半正交低秩矩阵分解(Semi-Orthogonal Low-Rank Matrix Factorization),然后与卷积神经网络(CNN)结合并在其隐藏层之后添加时间限制自注意层(Time-Restricted Self-Attention Layer)而得到优化的CNN-TDNN模型,将该模型作为系统的后端。最后,论文提出了将DNN语音增强联合迁移学习训练噪声鲁棒性语音识别声学模型的方法,通过在训练噪声鲁棒性语音识别声学模型过程中,将其中一组模型在增强的数据集中训练(作为学生模型),另一组在干净的数据集中训练(作为老师模型),然后利用迁移学习(Transfer Learning)的知识让学生模型学习老师模型的后验概率分布,以最大化两者之间的互信息。从而最终提高噪声鲁棒性语音识别系统的识别率和鲁棒性。实验结果表明,优化的CNN-TDNN模型相比深度神经网络(DNN)、卷积神经网络(CNN)、时延神经网络(TDNN)和CNN-TDNN模型具有更好的性能,该模型的平均识别词错率(WER)相比基线下降了11.76%。在该实验基础上,将该模型经过基于权重迁移的迁移学习所训练得到的模型具有更好的鲁棒性,实验测试的平均识别词错率(WER)又下降了0.37%。
其他文献
目的:研究分析普萘洛尔治疗肝硬化食管胃底静脉曲张的临床疗效。方法:采取回顾性分析方式,分析96例肝硬化食管胃底静脉曲张患者临床资料,患者均为2014年3月~2016年3月期间收
运动教育模式作为一种专门针对体育教学设计的教学模式,在充分尊重学生体育学习主体性和积极性的基础上,以合理的运动季划分和自由开放的运动形式设计为学生的体育学习兴趣发
本文介绍了单层轻型门式刚架结构的特点,并就整个结构体系的布置、单个构件的设计要点、设计中应注意的一些问题做了系统阐述。
<正>1日粮能量、蛋白质与氨基酸水平生产上为了使肉鸡有较快的生长速度和较高的饲料利用率,通常采用油脂配制高能量日粮,但高能高蛋白日粮除导致腹水症、猝死症外,还容易导致
期刊
<正>在教学过程中,教师对学生的不同表现施以相应的奖励或惩罚,既是天经地义的,也是不可或缺的。但当前在教育理论、政策和实践中对于奖励和惩罚的应用却存在着语焉不详或自
期刊
根据有关统计,中国许多中小型公司的生命仅为2~4年,即使是集团规模的公司生命也只有6~9年,而一些发达国家的公司生命却远远高于中国的公司。究其原因,主要是大多数中国公司采
在初中语文教学中,重点是对学生正确的价值观和个性的培养,发挥语文教学课程的优势,让学生在优秀的文化的影响之下都具备健康、独立的思维,促进学生健康地学习和生活。本文主
趣味性实验一般具有简单、有趣、新颖、奇巧的特点,能够有效激发学生的学习兴趣。本文在简要分析了在初中化学教学中应用趣味性实验重要性的基础上,以教学实例明确分析了趣味