基于深层神经网络的声学特征提取及其在LVCSR系统中的应用

被引量 : 0次 | 上传用户:shmilyxin2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,深层神经网络(Deep Neural Network, DNN)的崛起在诸多研究领域都引起了强烈的反响,并越来越受到关注。在语音识别领域,DNN相关技术能够使声学模型的识别性能得到显著性提升,已然成为新的研究热点。DNN通常以两种方式被有效地应用到声学建模当中:1)与隐马尔科夫模型(Hidden Markov Model, HMM)组成混合架构模型DNN-HMM,代替高斯混合模型(Gaussian Mixture Model, GMM)进行状态输出概率的计算;2)作为前端的声学特征提取器,为传统的GMM-HMM声学建模架构提供更有效的声学特征。本文将主要围绕基于DNN的声学特征提取及其在LVCSR系统中的应用展开研究,包括Tandem特征(或叫作概率特征)提取和瓶颈(bottleneck)特征提取两方面。首先,本文针对中文LVCSR系统提出了一种构建音素建模单元集的方法。这里,音素建模单元集的构建包括将传统声韵母建模单元集中的韵母细化到拼音音素级别、以一些先验知识为指导对这些单元进行调整并构造相对应的词典,以及首次基于扩展元音三角图设计问题集。音素建模单元集的单元数目相对较少,显得更为精简,冗余度和重合性降低,音素单元之间的区分性增强,在提取Tandem特征时可以有效的减少神经网络的输出层节点数目,这样既可以降低神经网络的复杂度,也更有利于Tandem特征的提取。实验表明,相比于声韵母建模单元集,新的音素建模单元集在基线系统和Tandem特征提取两方面都取得了较优的识别性能。其次,本文搭建了基于DNN提取bottleneck特征的基线系统,并结合一些启发式的技术进行了相应的优化。为了提取bottleneck特征,我们通常是将DNN中间隐层的节点数设置成一个较小的数值(往往与基础MFCC或PLP特征维度一致),这个隐层就被形象地称作为bottleneck层,而这种具有特殊结构的DNN被称作为bottleneck DNN, bottleneck层的输出就是所期望得到的基线bottleneck特征。实验表明,通过引入一些启发式的技术,比如利用线性变换技术PCA去相关、一阶差分和二阶差分系数、在解码过程中使用声学规整因子重新调整声学模型得分和语言模型得分之间的相对重要性等,bottleneck特征取得了较为显著的性能提升,甚至能与DNN-HMM混合架构模型的性能相比拟。其中,引入声学规整因子尤为重要。第三,本文提出了两种DNN非相干训练(Incoherent Training)算法,即最小化bottleneck层权重矩阵的相干性和最小化每个1nini-batch中数据的相关系数。算法通过在DNN训练的原始目标函数上增添归整项,使得bottleneck特征各维之间的相关性能够在DNN的训练过程中较为显式地被直接控制并被自动去除,以便于更好地用于后续对角化GMM-HMM的建模。实验结果表明,两种非相干训练算法都取得了一定的效果,使得基于bottleneck特征的GMM-HMM模型在识别性能上超越了DNN-HMM.最后,本文引入序贯区分性训练(Sequential Discriminative Training,SDT)算法对bottleneck DNN进行优化,从而得到性能更好的bottleneck特征。SDT算法在GMM-HMM建模架构中已经取得了卓越的效果,其目标函数中包含的语音帧之间的序贯信息对于语音识别问题至关重要,而这恰恰是传统的DNN训练算法(主要是基于帧分类的交叉熵算法)所缺少的,因此,我们借助SDT算法来对DNN参数进一步优化,并且采用了两种新的bottleneckDNN结构。两种结构都是将bottleneck层后移至最后一个隐层,但是,第一种结构的其他隐层节点数目相同,另一种则采取“宽”、“窄”隐层交织的结构。从实验结果中可以看到,SDT算法有助于得到更好的bottleneck特征,并且在后移结构上能够取得更优的性能,而使用交织结构能够减少提取bottleneck特征的计算量,同时保证识别性能基本没有损失。
其他文献
聚烯烃材料价格低廉,有较好的机械强度和化学稳定性,用该原料制作的微孔隔膜被广泛地应用在锂离子电池中。综述了聚烯烃电池隔膜的厚度、孔径、孔隙率、透过性、机械性能、化
<正>在劳动人事争议仲裁案件处理中,调解是调整劳动关系和维护劳动者权益的重要方式。调解以其灵活、便捷、高效以及良好的社会效果在化解社会矛盾、维护社会稳定、构建和谐
为了提高冀北地区白菜生产上灌溉水的利用效率,在膜下滴灌条件下,以常规滴灌(白菜全生育期滴灌8次)为对照(CK),在白菜主要生育期设置不同的灌水次数,试验设白菜全生育期内灌
目的:分析医院药品不良反应(ADR)的发生情况,促进临床合理用药。方法:对196份ADRs病例报告所引发的药品种类、给药途径、临床表现等方面进行统计分析。结果:抗感染药物引起的不良反
由中国城市科学研究会主编的团体标准《城市旧居住区综合改造技术标准》(简称标准)7月26日在北京发布。这是中国首个针对旧居住区综合改造的团体标准,于2019年8月1日起实施。
随着我国国民经济的迅速发展,各种高层建筑物越来越多,雷电灾害也时有发生。为把雷电灾害减少到最低程度,我们必须增强防雷减灾意识。其中,建筑物防雷装置检测尤其值得我们重
女性服装的细节设计的种类和表现形式多种多样,运用到白色礼服中可以增强服装的装饰性和视觉冲击力,提升服装的空间感和层次感,有助于设计师表达设计理念,使白色礼服更鲜明、更完
首先室内配制不同干密度的压实黄土土样,采用水平土柱入渗法测得到不同干密度黄土水分扩散率与体积含水量的关系。结果显示:当含水量较大时,干密度对黄土扩散率的影响非常显著;当
介绍了新建建筑物防雷装置施工中,接闪器施工、电涌保护器安装选型、接地装置敷设中存在的问题,结合建筑物防雷设计规范,剖析存在问题的原因。
Apelin是一种新发现的生物活性肽,是APJ受体的内源性配体。Apelin/APJ系统广泛分布于人和啮齿类动物的中枢神经和外周组织,参与多种生理及病理活动的调节。Apelin前体物Prepr