基于深层神经网络的语音识别声学建模研究

被引量 : 0次 | 上传用户：luoboge

【摘要】

：

语音识别的终极目标是使人与机器之间能够像人与人之间一样自如的交流。声学模型性能的好坏直接影响到整个语音识别系统的准确性。过去几十年,高斯混合模型-隐马尔科夫模型(G

【作者】

：

周盼

【发表日期】

：

2014年期

【关键词】

：

语音识别多深层神经网络竞争信息信息融合并行训练序列级训练

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

语音识别的终极目标是使人与机器之间能够像人与人之间一样自如的交流。声学模型性能的好坏直接影响到整个语音识别系统的准确性。过去几十年,高斯混合模型-隐马尔科夫模型(Gaussian Mixture Model-Hidden Markov Model, GMM-HMM)在语音识别声学建模方法中一直起着主导作用。GMM-HMM框架由于具备较完善的理论体系,包括区分性训练、自适应等成熟的配套算法,以及HTK等开源工具,而受到众多研究者的追捧。近年来,深度学习(Deep Learning)理论在机器学习领域兴起,其对语音识别方向也产生了深远影响。基于深度神经网络-隐马尔科夫模型(Deep Neural Network-Hidden Markov Model, DNN-HMM)的声学模型混合建模方案迅速取代传统的GMM-HMM框架,成为当前主流语音识别系统的标配,基于DNN-HMM新框架的相关算法研究也受到语音识别领域的广泛关注。在这样的背景下,本论文围绕深度神经网络声学建模及其在自动语音识别中的应用,进行了较系统而深入的研究。首先,为了提升基于神经网络的声学建模的能力,本文分别从特征域和模型域两个方面进行了探索。在特征域,本文借鉴传统TANDEM的方法将神经网络看成一种提取后验概率特征的预处理器,并基于所提取的区分性特征进行GMM-HMM建模。本论文提出了一种基于竞争信息的TANDEM系统改进方法。具体来说,我们首先基于解码过程中所生成的词图挑选训练样本的竞争信息,并基于该竞争样本训练相应的“竞争信息”神经网络,以对传统的只基于正例进行神经网络训练的TANDEM算法起到增强作用。接着,在直接使用神经网络作为声学分类器的模型域方面,本文针对中文语音识别系统中的多流声学特征,提出了一种中间层融合建模方案,该方案充分利用深度神经网络结构和学习算法的特点,在深度神经网络的中间某隐层进行多个特征流的中间层特征融合,并在融合特征的基础上继续学习更高层的特征表示。该算法在深度神经网络的框架下有效的利用了多流特征的互补特性,提升了识别系统的性能。然后,本文在深层神经网络声学建模效率方面进行了深入的研究,以解决大规模语音数据声学建模的可应用性问题。面向真实语音识别系统的海量训练数据、深层神经网络的超大规模模型参数、以及模型结构导致的传统训练算法不可并行性,使得训练效率问题成为深层神经网络声学建模实用化的最大瓶颈。针对这样的情况,我们分析了深层神经网络的学习算法,找到影响其效率的主因,并针对这些原因提出了一种新颖的多深层神经网络联合建模方案。通过将数据进行聚类,我们可以分开独立的并行训练多个深层神经网络来对各个聚类数据分别进行建模。这种建模方法在交叉熵准则下,相对普通单个深层神经网络建模方法效率的提升是非常明显,在实际的研究应用中具有重要意义。最后,针对我们提出的多深层神经网络联合建模方案,我们进行了进一步的完善。为了验证这一建模框架的切实可行性,同时解决其性能损失问题,我们在序列级区分性准则下进行了研究。序列级区分性准则可以看作是多DNN的一种联合优化策略,我们根据多DNN结构特点,推导出了此框架下的基于最大互信息量的区分性训练方法,并实现了部分并行化。实验表明,在经过联合优化后,多DNN方法与单个DNN方法达到几乎一样的性能,同时在交叉熵准则与最大互信息量准则下分别有超过7倍和1.5倍的训练效率提升,表明了多DNN声学建模方法是一种实际有效的建模方案。

其他文献

稀布阵列MIMO雷达成像技术研究

成像技术的出现是雷达发展史上的重要里程碑。成像雷达能够全天候、全时段工作,并可穿透植被、衣服、地表等遮挡物观测目标,具有广阔的应用前景。多输入多输出(Multiple-Inpu

学位

多输入多输出雷达雷达成像稀疏阵列模糊函数差集差基遗传算法阵列设计逆合成孔径雷达极坐标格式算法运动参数估计

S公司新产品研发阶段质量控制研究

随着技术的不断进步,市场需要的不断变化,如何快速设计并开发出满足客户需求的高质量产品越来越受到的企业的重视,也是企业保持市场竞争力的重要来源。作为一家从事关键电源

学位

质量控制质量改善产品设计和开发QFDFMEA

先秦儒家道德视域中的当代大学生道德教育研究

改革开放以来，随着经济全球化、信息网络化的不断发展，我国社会环境发生了巨大的变化，当代大学生的道德观念也发生了深刻的变化。一些大学生在寻求进步的同时出现了道德滑坡现象

学位

先秦儒家思想当代大学生道德教育

论我国城镇化进程中失地农民精神利益的法律保护

我国既有理论研究和实践做法更多关注了城镇化进程中失地农民物质利益的法律保护，对于失地农民精神利益保护鲜有涉及。结合农村集体土地征收分析我国失地农民精神利益损害的类

期刊

城镇化失地农民精神利益法律保护

自动导引车精确定位技术的研究

自动导引车以其灵活化、智能化等多种显著优势广泛地应用于自动化立体仓库、柔性装配系统、商业服务行业的物流传送系统等多种系统中。自动导引车的广泛应用不仅大幅减少了劳

学位

AGVQR Code二值化视觉定位

大型电力变压器减振降噪技术应用研究

噪声是发声体做无规则振动时发出的声音。随着越来越多变电所建于居民区和商业区内,变压器噪声问题变得十分突出。变压器噪声水平的高低,已经成为了衡量变压器生产厂家设计和

学位

变压器振动噪声减振降噪措施数值分析

新疆农机购置补贴政策实施绩效评估

我国农机购置补贴政策从2004年开始实施，在政策的推动下，农业机械化水平取得飞速发展，但同时，农机化环境不断变化，补贴政策实施中暴露出了诸多问题，农机购置补贴政策实施效果，已经受

学位

农机购置补贴补贴政策农户行为满意度区域差异

国内外中小学生营养政策对比和分析

研究背景儿童及青少年时期是生长发育的关键时期,营养不良对身体发育和认知有不良影响,造成体力不足,劳动能力降低、收入减少甚至导致贫困,而贫困也会进一步恶化营养状况,从

学位

营养政策中小学生校园营养餐学生奶校园不健康食品售卖监管儿童食品广告监管营养健康教育

区块链技术对乡村发展的积极意义

区块链技术作为一种新型的信息科学技术突破了传统中心式技术的局限,具有广阔的发展前景,逐渐应用到社会生活的各个领域。新时代的乡村发展也需要不断融入先进的科学技术以寻

期刊

区块链应用乡村旅游乡村振兴

灰仓鼠体内鞭毛虫分离鉴定及驱虫药筛选与效果评价研究

目的：野生灰仓鼠是一种生活在中亚地区的野生啮齿类动物。属于啮齿目，仓鼠科，仓鼠亚科，仓鼠属。其栖息生境主要分布在荒漠平原、高山草甸。大量研究表明灰仓鼠在鼠疫菌分离，包虫病

学位

灰仓鼠鼠三毛滴虫形态观察16S rRNA驱虫药效实验

基于深层神经网络的语音识别声学建模研究

与本文相关的学术论文