语种识别深度学习方法研究

被引量 : 0次 | 上传用户：areschicken

【摘要】

：

语种识别(Language Identification, LID)是指自动判定给定语音段语言种类的过程。伴随着国际化趋势的日益深入,语种识别技术在多语言语音处理系统中的作用也越来越重要,业已

【作者】

：

蒋兵

【发表日期】

：

2015年期

【关键词】

：

语种识别全差异建模深度瓶颈特征深度学习最大互信息特征学习深度神经网络循环神经网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

语种识别(Language Identification, LID)是指自动判定给定语音段语言种类的过程。伴随着国际化趋势的日益深入,语种识别技术在多语言语音处理系统中的作用也越来越重要,业已成为多语言智能语音技术的不可或缺的关键组成部分之一。经过近五十余年的发展,对语种识别的研究取得了长足的进步,在某些特定任务下长时语音段的语种识别性能甚至超过了人工识别的结果。然而,现有语种识别系统的性能仍然不能满足日益增长的需求,尤其是面对短时语音段语种识别以及高混淆度的语言识别任务时。这主要是由于语言信息属于语音信号中的弱信息,隐藏在语音信号中,需要通过对语音中的信息进行提取和分析才能进行判定。判决结果的好坏强烈地依赖于语音信息段中的相关统计信息,而在短时语音段和高混淆语言任务中,现有方法对这些统计信息的估计缺乏鲁棒性。面对上述挑战,如何提取更适用于语种识别的特征以及提升模型的非线性分类能力是当前的研究重点。近年来,深度学习(Deep Learning)理论在诸多机器学习领域都取得了成功的应用,引起了学界和产业界的广泛关注。由于其模型具有深度非线性结构特性,深度学习模型具有较强的深层信息抽取和非线性建模能力。本文主要围绕深度学习在语种识别中的应用,从特征提取和模型构建两方面展开研究,主要包括以下内容：首先,本文提出了基于深层神经网络(Deep Neural Network, DNN)提取音素相关深瓶颈特征(Deep Bottleneck Feature, DBF)的语种识别方法。该特征通过训练一个音素状态相关的带有瓶颈层的深度神经网络,然后将底层声学特征通过神经网络,在深瓶颈层得到输出即为相应的DBF特征。该DBF特征能够有效的抑制底层声学特征中的语种无关噪声,特别是信道差异、说话人差异、背景噪声差异等噪声因素,并且能够将底层声学特征与具有物理意义的底层声学单元对应起来。实验结果表明,利用DBF特征结合全差异建模(Total Variability, TV)的语种识别方法DBF-TV,能够有效的提升语种识别的性能,特别是极大的改善了易混语种和方言、短时语音的语种识别性能。鉴于DBF特征的提取是基于特定语种的音素状态DNN网络而实现,本文还提出了基于不同语言音素状态任务的DNN提取不同语种相关DBF的并行语种识别方法,该方法能够融合语音信号在不同声学单元集合下呈现的语种差异,进一步提升语种识别的性能。其次,在DBF特征的基础上,本文提出了融合语种信息的区分性DBF特征(Discriminative DBF, D2BF)学习方法。该方法将基于音素的深度瓶颈提取网络作为初值,通过区分性的最大互信息准则(Maximum Mutual Information, MMI)结合高斯混合模型(Gaussian Mixture Model, GMM)将语种分类任务直接与DBF特征的提取过程建立联系,利用梯度下降法对网络参数进行调整,从而实现语种任务相关的特征学习过程。实验表明,较DBF特征而言,基于该方法提取的D2BF特征更加适用于语种识别任务,特别是在后端类差异补偿模型不容易实现的情景下,该特征能够有效的提升系统的性能。再次,在模型域层面,本文提出了基于DNN的DBF-TV模型的改进方法。该方法在对混合高斯模型进行参数估计时,利用DNN的区分性分类能力,将语种识别的数据按照音素状态进行聚类从而得到GMM模型估计时的相关统计量。在该模型中,每个高斯成分直接对应于某一个音素状态。实验表明,基于区分性GMM模型的DBF-TV系统能够进一步提升系统的性能。最后,本文对利用深度学习模型直接进行语种识别建模进行了一定的探索。由于语种信息的隐藏特性,对语音段的整体分析才能反应出语种特性,因此逐帧构建深度学习模型时容易损失掉语音信号的时序关系。本文主要比较了基于前馈方式的深度神经网络(DNN)结构和基于隐层循环的循环神经网络(Recurrent Neural Network, RNN)结构。实验表明,较前馈神经网络而言,利用RNN对语音信号的时序结构进行建模方法在语种识别领域中有着显著的优势。

其他文献

喷灌条件下田间小气侯的变化和SPAC系统土壤水分运移规律的研究

喷灌具有明显节水增产效益，我国目前喷灌面积已达200万hm~2。但是喷灌系统设计时，应用的一些基础参数如腾发量等，一般都是在传统地面灌溉条件下通过试验得出的，由于没有考虑喷灌

学位

喷灌水滴蒸发田间小气候瞬时喷灌强度作物生长规律

浅述活血化瘀法治疗妇科癥瘕

本文主要论述了活血化瘀法在妇科癥瘕治疗上的应用。古往今来，妇科癥瘕的治疗广泛采用活血化瘀法。其理论依据是：在概念、病因病机、临床表现上，妇科癥瘕与血瘀密切相关，且活

学位

活血化瘀血瘀癥瘕

单孔与多孔胸腔镜下肺叶切除术围手术期情况的对比

目的：评价单孔胸腔镜肺叶切除术的特点,并与多孔胸腔镜下肺叶切除术比较。背景：目前关于单孔胸腔镜肺叶切除的报道并不多,而单孔与多孔胸腔镜下肺叶切除的对比更是少之甚少。因

学位

肺叶切除术单切口胸腔镜手术

2型糖尿病对急性脑梗死近期预后的影响

目的：观察2型糖尿病对急性脑梗死近期预后的影响。方法：收治急性脑梗死患者235例，75例患者合并2型糖尿病作为观察组，160例非糖尿病脑梗死患者作为对照组，两组均给予综合治疗，观察两

期刊

2型糖尿病急性脑梗死近期预后

不同危险度分级子宫内膜间质瘤患者生存以及预后影响因素分析

目的探讨低度恶性和高度恶性子宫内膜间质瘤患者生存和预后的影响因素。方法回顾性分析2007年1月—2012年4月就诊确诊为子宫内膜间质瘤的94例患者资料,其中低度恶性69例,高度

期刊

子宫内膜间质瘤低度恶性高度恶性生存预后

青年大学生社会责任教育的目标和内容

青年大学生社会责任教育应该以为实现中华民族伟大复兴的中国梦培养有理想、有担当、有作为的新时代大学生为目标。同时,要在目标的指引下,以大学生面向的不同主体和担任的不

期刊

大学生社会责任目标内容

从人民医院被隔离谈非程序化决策能力

<正> 从今年3月21日发现第一起非典病例起,至4月23日被宣布整体隔离,人民医院2000余名医务人员中,有93名相继被感染!成为SARS风暴以来世界上医务人员被感染最多的医疗机构。

期刊

非程序化决策医务人员手榴弹

1.5 T磁共振不同NEX脑部肿瘤酰胺质子转移成像的应用初探

目的探讨1.5 T磁共振不同NEX脑部肿瘤酰胺质子转移（amide proton transfer,APT）成像对ATP成像图像采集及后处理的影响。材料与方法采用GE Signa HDe 1.5 T MRI仪进行对比分析

期刊

磁共振成像化学交换饱和转移酰胺质子转移脑肿瘤

混沌振动的系统参数研究及其仿真计算

混沌运动是一种始终局限于有限区域且轨道永不重复的、性态复杂的运动，它是确定系统中貌似随机、不规则的运动。混沌目前是世界性的研究热潮之一，它也正在被越来越多人们所认识

学位

混沌、混沌振动、仿真计算

单色软X射线杉木木材密度测定及变异研究

利用单色软Ｘ射线木材密度计，分别测定了杉木木材质量吸收系数及２２个杉木优良家系年轮宽度组成和年轮密度组成，通过杉木木材性状遗传变异研究，了解杉木木材变异规律，为进一步进行多性

期刊

杉木木材质量吸收系数年轮宽度组成年轮密度组成遗传分析

语种识别深度学习方法研究

与本文相关的学术论文