基于深层神经网络的语音识别声学建模研究

被引量 : 0次 | 上传用户:luoboge
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别的终极目标是使人与机器之间能够像人与人之间一样自如的交流。声学模型性能的好坏直接影响到整个语音识别系统的准确性。过去几十年,高斯混合模型-隐马尔科夫模型(Gaussian Mixture Model-Hidden Markov Model, GMM-HMM)在语音识别声学建模方法中一直起着主导作用。GMM-HMM框架由于具备较完善的理论体系,包括区分性训练、自适应等成熟的配套算法,以及HTK等开源工具,而受到众多研究者的追捧。近年来,深度学习(Deep Learning)理论在机器学习领域兴起,其对语音识别方向也产生了深远影响。基于深度神经网络-隐马尔科夫模型(Deep Neural Network-Hidden Markov Model, DNN-HMM)的声学模型混合建模方案迅速取代传统的GMM-HMM框架,成为当前主流语音识别系统的标配,基于DNN-HMM新框架的相关算法研究也受到语音识别领域的广泛关注。在这样的背景下,本论文围绕深度神经网络声学建模及其在自动语音识别中的应用,进行了较系统而深入的研究。首先,为了提升基于神经网络的声学建模的能力,本文分别从特征域和模型域两个方面进行了探索。在特征域,本文借鉴传统TANDEM的方法将神经网络看成一种提取后验概率特征的预处理器,并基于所提取的区分性特征进行GMM-HMM建模。本论文提出了一种基于竞争信息的TANDEM系统改进方法。具体来说,我们首先基于解码过程中所生成的词图挑选训练样本的竞争信息,并基于该竞争样本训练相应的“竞争信息”神经网络,以对传统的只基于正例进行神经网络训练的TANDEM算法起到增强作用。接着,在直接使用神经网络作为声学分类器的模型域方面,本文针对中文语音识别系统中的多流声学特征,提出了一种中间层融合建模方案,该方案充分利用深度神经网络结构和学习算法的特点,在深度神经网络的中间某隐层进行多个特征流的中间层特征融合,并在融合特征的基础上继续学习更高层的特征表示。该算法在深度神经网络的框架下有效的利用了多流特征的互补特性,提升了识别系统的性能。然后,本文在深层神经网络声学建模效率方面进行了深入的研究,以解决大规模语音数据声学建模的可应用性问题。面向真实语音识别系统的海量训练数据、深层神经网络的超大规模模型参数、以及模型结构导致的传统训练算法不可并行性,使得训练效率问题成为深层神经网络声学建模实用化的最大瓶颈。针对这样的情况,我们分析了深层神经网络的学习算法,找到影响其效率的主因,并针对这些原因提出了一种新颖的多深层神经网络联合建模方案。通过将数据进行聚类,我们可以分开独立的并行训练多个深层神经网络来对各个聚类数据分别进行建模。这种建模方法在交叉熵准则下,相对普通单个深层神经网络建模方法效率的提升是非常明显,在实际的研究应用中具有重要意义。最后,针对我们提出的多深层神经网络联合建模方案,我们进行了进一步的完善。为了验证这一建模框架的切实可行性,同时解决其性能损失问题,我们在序列级区分性准则下进行了研究。序列级区分性准则可以看作是多DNN的一种联合优化策略,我们根据多DNN结构特点,推导出了此框架下的基于最大互信息量的区分性训练方法,并实现了部分并行化。实验表明,在经过联合优化后,多DNN方法与单个DNN方法达到几乎一样的性能,同时在交叉熵准则与最大互信息量准则下分别有超过7倍和1.5倍的训练效率提升,表明了多DNN声学建模方法是一种实际有效的建模方案。
其他文献
成像技术的出现是雷达发展史上的重要里程碑。成像雷达能够全天候、全时段工作,并可穿透植被、衣服、地表等遮挡物观测目标,具有广阔的应用前景。多输入多输出(Multiple-Inpu
随着技术的不断进步,市场需要的不断变化,如何快速设计并开发出满足客户需求的高质量产品越来越受到的企业的重视,也是企业保持市场竞争力的重要来源。作为一家从事关键电源
改革开放以来,随着经济全球化、信息网络化的不断发展,我国社会环境发生了巨大的变化,当代大学生的道德观念也发生了深刻的变化。一些大学生在寻求进步的同时出现了道德滑坡现象
我国既有理论研究和实践做法更多关注了城镇化进程中失地农民物质利益的法律保护,对于失地农民精神利益保护鲜有涉及。结合农村集体土地征收分析我国失地农民精神利益损害的类
自动导引车以其灵活化、智能化等多种显著优势广泛地应用于自动化立体仓库、柔性装配系统、商业服务行业的物流传送系统等多种系统中。自动导引车的广泛应用不仅大幅减少了劳
噪声是发声体做无规则振动时发出的声音。随着越来越多变电所建于居民区和商业区内,变压器噪声问题变得十分突出。变压器噪声水平的高低,已经成为了衡量变压器生产厂家设计和
我国农机购置补贴政策从2004年开始实施,在政策的推动下,农业机械化水平取得飞速发展,但同时,农机化环境不断变化,补贴政策实施中暴露出了诸多问题,农机购置补贴政策实施效果,已经受
研究背景儿童及青少年时期是生长发育的关键时期,营养不良对身体发育和认知有不良影响,造成体力不足,劳动能力降低、收入减少甚至导致贫困,而贫困也会进一步恶化营养状况,从
区块链技术作为一种新型的信息科学技术突破了传统中心式技术的局限,具有广阔的发展前景,逐渐应用到社会生活的各个领域。新时代的乡村发展也需要不断融入先进的科学技术以寻
目的:野生灰仓鼠是一种生活在中亚地区的野生啮齿类动物。属于啮齿目,仓鼠科,仓鼠亚科,仓鼠属。其栖息生境主要分布在荒漠平原、高山草甸。大量研究表明灰仓鼠在鼠疫菌分离,包虫病