噪声环境下基于深度学习的语音识别研究

来源 :武汉工程大学 | 被引量 : 0次 | 上传用户:hanxianzhi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别技术的主要目标是利用计算机将人类的语音模拟信号转换成计算机能处理的数字信号,如字符序列或二进制编码。伴随着移动互联网的快速发展,辅助输入、机器翻译、人机对话、导航等领域对语音识别技术在实时性和准确性方面提出了更高要求。传统的语音识别技术主要考虑在无噪声或较弱噪声环境下的声学特征提取、声学模型构建、模型训练、语言模型构建和解码器构建等模块,而人类大多数语言环境都充斥着各种类型的噪声,强噪声环境下的语音识别的研究具有极高的实用价值。本文以强噪声环境(信噪比小于等于20db)下的语音识别为研究对象,以深度学习原理为理论基础,以噪声注入为语音训练方式,以Kaldi语音识别工具箱为平台,对带强噪声的语音进行了研究及系统实现,取得了较为满意的结果。具体工作为:1、提出了将特征最大似然线性回归(feature maximum likelihood linear regression,fMLLR)作为强噪声环境下的语音训练特征。使用MFCC(Mel-Frequency Cepstral Coefficients)特征训练模型并识别后,对这些结果作fMLLR变换,并进行fMLLR估计得到的声学特征即为fMLLR特征。对混合高斯隐马尔可夫(Gaussian mixture model-hidden Markov model,GMM-HMM)模型来说,fMLLR变换的估计准则是在给定特定模型的条件下,最大化用于自适应的数据的似然度。对DNN(deep neural network)来说,fMLLR变换可以用来最大化交叉熵(通过反向传播算法)。fMLLR变换会作用在深度神经网络的每个输入向量上或者每一帧的特征上,因此fMLLR特征具有较好的泛化能力,可以适应复杂的噪声场景。实验表明,在信噪比为0db的情形下,与使用MFCC特征相比,使用fMLLR特征可以降低系统识别的词错率7.18%。2、提出了基于深度置信网络(deep belief network,DBN)预训练的噪声训练方法。区别于纯语音环境的训练方式,带强噪声的语音训练过程分为两部分。首先对训练集语音数据注入噪声,将提取到的MFCC特征用于训练GMM-HMM模型,并利用此模型提取fMLLR特征;然后利用fMLLR特征进行DBN预训练,再使用预训练结果进行DNN(deep neural network)训练,这将会赋予DNN更好的初始化权重。此外,在预训练过程中利用了大量无标注信息,这为DNN训练中的小尺度调整权值做好了数据准备。实验表明,在信噪比为0db的情形下,使用DBN预训练可以降低系统识别的词错率4.1%。
其他文献
对原始语料进行标注是汉语中介语语料库建设的重要工作。但目前语料库的标注方法仍存在诸多问题,如无法保留生料库标注、偏误标注信息不全、无法对正确语句进行标注、标注界
10月9日,瑞典皇家科学院宣布,约翰·B·古迪纳夫(John B.Goodenough)、斯坦利·威廷汉(Stanley Whittingham) 和吉野彰(Akira Yoshino)三人获得2019年诺贝尔化学奖,表彰他们对锂离子
报纸
()$$    从目前走势看,国产汽车价格经过前期连续下降,降幅有所趋缓,总体已趋于稳定。其中乘用车在局部细分市场,个别车型价格止跌企稳并略有回升。预计后期,汽车价格将延续稳
报纸
<正>~~
城市空间形态演变的研究是城市发展历程的总结。本文运用边界分形维数、街坊形状指数等,对环县各时期城市空间形态进行定量分析,进而对各时期城市空间形态的演变进行定性分析
随着计算机技术在各行业的广泛渗透,加之国内企业对于专利保护意识的逐渐增强,越来越多的国内软件企业开始选择以发明专利作为有效手段,将其在技术创新方面的“智慧成果”以“产
报纸
目的:通过对受试者采用不同振动频率进行附加振动的负重蹲训练,探讨振动频率对肌肉力量振动训练效果的影响及其机理。方法:以大学男生30人为受试者,在振动台上进行不同振动频率
目的探讨CA125水平在胸腔积液检测中的临床意义。方法对自2010年11月至2011年9月入住我院并确诊的结核性胸膜炎患者50例采用电化学发光技术检测结核性胸膜炎胸腔积液CA125水
什么叫中医,不是单纯中国的医学叫中医,而是中可通上下,也有中和的意思。$$    中医是一门集养生、治疗于一体的医学。医者针对人体五脏六腑,虚者补之,实者泻之,寒者热之,热者凉
报纸
通过对影响工商全程电子化进度的网络身份管理问题的探讨,分析了当前网络可信身份管理存在的主要问题,提出构建多层次一体化的网络身份管理体系的建议,该体系适应当前互联网