基于深度学习的中文儿童语音识别声学模型研究

来源 :兰州理工大学 | 被引量 : 3次 | 上传用户:guozhenhui11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
儿童语音识别技术存在巨大的潜在市场,但大部分的语音识别研究都聚焦于成人,当下对儿童语音识别技术的研究较少,且儿童在发音及语言表达方面的特殊性也给儿童语音识别的研究带来了极大的挑战。因此本文从基于深度学习的中文儿童声学建模角度出发,对现有的声学模型进行优化,进一步研究新的儿童声学建模方法来提高中文儿童语音识别的准确率和解码效率。首先,本文围绕深度学习的声学建模技术,研究了时延神经网络(TDNN)和LSTM(Long Short-Term Memory)网络的模型结构,并分析了TDNN-LSTM模型在计算复杂度方面的问题,采用改进的OPGRU(Output-Gate Projected Gated recurrent unit)结构来代替LSTM。实验表明基于TDNN-OPGRU的声学模型,不仅比TDNN-LSTM的声学模型识别性能好,而且比TDNN-LSTM的解码速度快30%。针对儿童在生理学上的特性,通过在网络前段加入CNN(Convolutional Neural Networks)来捕获更有利于儿童语音识别的声学特征信息,最终采用基于CNN-TDNN-OPGRU的儿童语音声学模型,实验表明基于CNN-TDNN-OPGRU的儿童语音声学模型可以取得比TDNN-OPGRU更好的性能,验证了通过增加CNN层来提取更丰富的儿童声学特征的有效性。其次,为了进一步提高儿童语音识别的性能和解码效率,本文研究了前馈记忆序列神经网络(FSMN)的结构,将其应用于儿童声学建模中,并进行不同FSMN结构的设计及实验对比,实验验证了包含更多记忆模块的FSMN模型可以获得更丰富的上下文信息。在FSMN模型的基础上进一步研究了cFSMN(Compact-FSMN)以及基于深层结构FSMN组成的DFSMN(Deep FSMN)对于中文儿童语音识别系统性能的提升,通过实验结果的分析,表明基于DFSMM的儿童声学模型的词错率为25.76%,相比基于TDNN-LSTM的儿童声学模型可以获得1.7%的相对性能提升,且解码速度比TDNN-LSTM声学模型快2倍以上。最后,针对目前儿童语音识别训练语料资源不足,导致识别系统鲁棒性差的问题,将多任务学习(MTL)与DFSMN结合,提出基于MTL-DFSMN的中文儿童语音声学模型,将LF-MMI(Lattice Free MMI)准则和交叉熵训练准则一起用于DFSMN声学模型训练,在训练过程中两者同时更新模型参数和计算损失,在解码时,则由LF-MMI产生网络的输出。最终实验结果表明,基于MTL-DFSMN的中文儿童声学模型可以取得最佳性能,相对Relu-DNN模型词错率下降16%。
其他文献
目前啤酒实际生产中所用的啤酒发酵罐大部分是圆柱锥底发酵罐,其构型的设计基本是基于经验而来,而发酵罐的几何构型是影响罐内发酵液的温度分布及流动状态的重要因素,本文利
鼻咽癌是一个多因素遗传性的头颈部常见肿瘤,其发生发展具有多阶段性、隐蔽性等特点,是我国常见的恶性肿瘤之一;高发区主要集中在南方五省(广东、广西、湖南、福建、江西),有广东
随着经济的迅猛发展,资源的大量消耗,环境也承载着巨大的压力,资源和环境对经济的可持续发展制约作用也越来越明显。资源的回收利用,减少环境负担的同时还可以增加资源的利用
原发性肝细胞癌是全世界最高发的恶性肿瘤之一,其发生是遗传因素和环境因素相互作用的结果,遗传因素决定了个体遗传易感性,而环境因素决定了什么样的易感个体患癌。本文论述
通过对我国已经实施股权激励的上市公司进行因子分析,并构建回归模型揭示了上市公司实施股权激励对企业绩效的影响。研究结果表明:总体上,我国上市公司股权激励与企业绩效之
目的探讨应用抗感染活性骨(ARBX)联合外固定架治疗四肢创伤性骨髓炎的疗效。方法回顾性分析我院自2001年1月~2009年12月收治并系统随访的应用抗感染活性骨(ARBX)联合外固定架治疗
被誉为“加拿大文学女王”的玛格丽特·阿特伍德是当代世界文坛最为重要也最为活跃的作家之一。她迄今为止已发表了超过50部作品,涉及小说、诗歌、文学评论等各类题材,并获得
伴随着人民生活水平的日益提升,公众受教育程度的不断提高,公众对于科学技术知识的渴求也在逐步加强。很多运用新知识、新技术、创造高附加值产品的企业要面临着严峻的国内外市
随着我国经济的不断发展,老龄化问题也日趋显著,随之而来的便是老年人的居住问题,而“空巢家庭”居住模式的研究则成为我们解决老年人居住的关键。虽然近年来我国经济高速发展,但
乙型肝炎病毒(Hepatitis B virus,HBV)导致急慢性乙型肝炎,并与肝硬化和肝细胞癌(Hepatocelluar carcinoma, HCC)密切相关,但其确切机制尚未完全阐明。HBx蛋白由HBV基因组X开放读码