结合发音知识的声学模型深度学习建模方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:xia__1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
发音知识是一种从声学角度描述语音特性的由领域专家设计的描述方式。其中富含内容、音色、情感、环境等诸多信息,已被证实有助于对语音识别系统性能的提升。然而传统研究对于发音知识的应用主要局限于证据融合器(Evidence Merger)和词网格重打分(Lattice Rescore)。随着深度学习的兴起,语音识别系统框架发生了翻天覆地的改变。本文的研究重点在于如何结合深度学习框架,通过更好地融合发音知识,来对声学模型进行建模,从而达到提升整体系统性能的目的。本文的主要工作及创新点如下:  提出了一种基于多目标学习的发音知识提取方法。该方法结合神经网络结构灵活的优势,通过多目标学习策略将发音属性分类作为副任务以提升主任务发音建模单元识别的性能。本文针对每个音素可能同时包含于多个发音属性的问题,采用分块Softmax输出结构,此举也有利于确保主副任务梯度数量级的一致,方便参数的调节。在该算法的基础上,本文还提出了利用融合器进行进一步分类。实验不仅包括不同数据集、不同任务和不同参数的训练情况,还包括不同数据量和非匹配训练数据的情况。实验结果证明多目标学习作为一种正则手段具有抑制过拟合的作用,另外其副任务也提供了有利于隐层节点增强区分性的信息,有利于模型的收敛。该算法在数据量不足和数据不匹配的情况尤其有效。  提出了一种基于深层变换的发音知识特征。考虑到多目标学习在数据量较为充足情况下性能提升有限,本文提出了一种深层变换的发音知识特征域提取框架,包括深度级联发音特征和深度瓶颈发音特征两种结构。利用发音属性信息通过深度神经网络多层次的非线性变换,将其中有利于识别的区分性信息抽取出来并降维得到深度变换特征。与模型域的多目标学习不同,该特征从特征域融合发音知识,以提升声学模型的建模能力。实验探究了两种结构的优劣和隐层的选择,以及特征维度的选择等,并结合多目标发音知识提取框架,获得了明显好于基线系统和两个独立改进的结果。  提出了一种基于统计量建模的发音知识特征。经过观察,我们发现逐帧提取的发音知识特征虽然对系统性能有提升,但局限于性能提升不明显且提升效果不稳定。我们分析认为其主要问题在于帧级别发音特征与目标senones相关度过高,以及前后信息不足导致估计不稳定。我们还发现逐帧计算后验概率的深度神经网络声学模型有一个天然缺陷,即其无法对句级统计量做出响应,这也是句级的归一化和说话人级别的归一化始终有提升效果。考虑到以上情况,我们提出了基于统计量建模的发音知识特征。该特征包含整句中发音知识的伪Baum-Welch统计量信息,通过全变化空间矩阵进行建模,得到该句的统计量特征。该特征与传统i-vector特征的不同之处在于输入特征不是常规梅尔滤波器特征或线性感知系数,而是发音知识对应的基本特征。该特征弥补了深度神经网络句级/说话人级别建模的无力,并通过全句统计的方式变得稳定,在INTEL语料库相比基线系统获得了3.5%的绝对性能提升。我们还将该特征与多任务学习结合,其识别错误率分别在数据充足和数据不足的情况下获得降低。  提出了一种基于递归神经网络的统计量建模方法。在传统i-vector特征提取过程中,我们使用通用背景模型来对声学背景进行建模,并通过全变量空间来得到低阶子空间。近年来,我们发现对于声学建模问题,高斯混合模型的性能远不如同等情况下的深度学习模型,而深度学习模型中,基于长短时记忆的递归神经网络在相同情况下往往取得优于传统全连接神经网络的建模效果。藉此,我们假设每个神经网络的senones后验输出可以用单高斯近似表示,于是我们用基于长短时记忆递归神经网络的后验概率替代传统基于高斯混合模型的通用背景模型,提取Baum-Walch统计量,并利用全局变化空间模型来获得其低阶子空间,从而得到统计量模型。
其他文献
随着现代控制系统的规模日趋大型化、复杂化,系统发生故障的可能性也随之增加,为了提高控制系统的安全性,对控制系统进行故障检测和诊断是非常必要的。 为了提高故障检测的正
本文提出了基于面部肌电信号的无声语音识别实验系统。由于本文是通过面部肌电信号而非声音信号进行识别,因此可应用于高噪声环境中和帮助失去发音能力或存在发音障碍的人实现
论文首先综合分析了当前国内外故障诊断理论与技术的研究现状,并在此基础上对一些现有的故障诊断方法的不足提出了一些新的方法,重点研究了针对化工生产过程故障的特点,如何将多
生产调度协调和优化整个企业的运作,帮助企业合理调配各种生产资源,为企业节约资源、降低成本、提高生产效率,是提高企业整体运行效益的重要手段。本文对两种连续生产过程进行建
应用自组织映射(SOM)网络保留样本原始空间拓扑结构的特性,将其用在基因表达数据的聚类分析中,通过对映射结果的分析,结果表明SOM网络有较高的分类正确率;进而,针对基本的SOM网络
现代科学技术日新月异的发展,使流程工业生产系统日趋大型化、集成化。伴随着生产系统复杂性的增加,系统故障检测与诊断能力的提高成为了一个必须解决的重要问题。本文针对流程
目前针对EMG肌电信号的研究逐步兴起,其优点在于可以作为安全的医疗辅助机器人的控制信号。本文的研究目的在于如何快速、准确地从EMG肌电信号中识别人体肘关节运动角度,以产生
信息技术特别是网络技术和计算机技术的飞速发展已经对社会生产、生活和管理产生了深远的影响。由于信息资源的管理之间缺乏有效的联系,导致“信息孤岛”的现象越来越明显,于是
无刷直流电动机既具有交流电动机结构简单、运行可靠、维护方便的特点,又具有直流电动机运行效率高、无励磁损耗、调速性能好等诸多优点,有广泛的应用前景,成为了国内外研究的热
本文回顾了数据校正理论的发展历史、研究情况及其工业应用情况,并介绍了稳态线性系统的数据分类、数据协调以及显著误差检测的基本原理。在此基础上提出的广义似然比方法侦破