语种识别中的语音段表示方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:yyyypolo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语种识别(Language Identification, LID)是对一段语音自动识别出其所属语言的种类的过程。由此可知,语种识别是一种针对语音段进行的模式识别,因此语种识别中的一个关键问题即是如何得到用以描述语音段的表示。语种识别中包含了特征提取和语音识别前端模型等一系列语音信号处理领域的核心技术,具有一定的科学研究价值。同时作为语音领域的一种前端处理技术,语种识别在多语种语音识别、跨语种通信系统以及军事监听等领域有着广泛的应用。传统的语种识别方法主要有基于音素搭配与基于底层声学特征的两大系统。传统方法中虽然长时测试性能取得了很大的进展,但仍存在着短时与方言识别率低等问题。随着深度神经网络(Deep Neural Network, DNN)的发展与成功应用,语种识别有了一个新的研究领域。在前端特征提取上,提出基于深度瓶颈特征结合全差异空间模型(Deep Bottleneck Feature-Total Variability, DBF-TV)该方法将深度神经网络中间瓶颈隐层的信息成功运用到语种识别中。在后端建模方法上,则根据DNN区分性建模的能力充分利用其输出层信息,如DNN/i-Vector方法,即利用DNN输出层音素状态后验重新估计通用背景模型(Universal Background Model, UBM)。然而对于一个以底层声学特征为输入、音素状态后验为输出训练得到的深度神经网络,我们认为该网络从输入层至输出层依次反映了语音从底层声学特征到高层语义与音素相关的较为完备的信息,而且各层信息之间具有互补性。因此本文就基于同一DNN不同层信息如何得到语音段的表示展开研究,具体而言即是同时利用同一神经网络的中间瓶颈层和输出层信息。首先,对于从深度神经网络输出层提取的音素状态帧级特征,可以认为其是在各帧上展开的音素状态序列,则每段语音可以通过计算其统计量作为语音段表示。得到的语音段表示是向量形式的,则可直接用区分性模型对其进行分类。具体则根据其特性,使用合适的核函数进行了支持向量机分类。并根据神经网络不同层信息的互补性,将该方法与DBF-TV进行融合,能够提升语种识别系统的性能。其次,在带有中间瓶颈层的深度神经网络上实现基于DBF的DNN/i-Vector基线系统,同时完成中间层DBF特征的提取与以输出层音素状态为依据的聚类,即在模型域对两者进行融合。具体地,利用DNN输出层的音素状态为聚类的依据,以其后验概率代替每帧特征在传统UBM模型中各高斯上的占有率,再结合DBF得到带有与音素状态相关的UBM。以此为基线,对DNN/i-Vector系统的输入特征DBF进行Acoustic Factor Analysis(AFA)建模,使其得到的模型能够更好地描述特征空间,以此进一步提升系统的识别性能。最后,从深度神经网络输出层提取的特征是一种帧级特征,类似DBF特征亦可以利用统计建模的方法对其在帧级特征空间上的分布特性进行描述以得到湃音段表示。然而此类特征一般都属于高维特征,需要在低维空间上对其分析。我们采用混合因子分析(Mixtures of Factor Analyzers, MFA)对特征进行低维空间上的建模方法研究,该方法是降维与聚类的结合,等同于对特征进行聚类后,再在每个聚类内做因子分析将其映射到低维空间上。相对将输出层信息的统计量作为语音段表示的单系统,该方法的性能有一定的提升,特别是在短时测试集的识别性能上。
其他文献
随着用户数目和业务种类的增加,传统网络架构的功能局限和容量限制等问题日益凸显。在此背景下,网络虚拟化技术成为解决该类问题的有效途径之一。网络虚拟化是将物理网络资源
空时编码是一种基于多输入多输出(Multiple-Input-Multiple-Onput, MIMO)系统的信道编码技术,其不仅能够大幅度地提高无线通信系统的容量,而且能够在不牺牲系统带宽的情况下
自然界所有温度在绝对零度(-173℃)以上的物体,都会不停地发出红外热辐射。物体表面热辐射的强弱与该点的温度和表面状态有关,从而形成一幅反映物体温度分布和表面特征的热图像
大规模MIMO (Very Large MIMO或Massive MIMO)技术是IMT 2020(5G)中的关键技术之一。当天线数目远远大于用户数时,干扰与噪声可以忽略不计,导频污染(PC, Pilot Contamination
随着互联网技术的飞速发展,无线校园网用户的网络安全认证问题日益突出。当前比较成熟的安全认证技术有PPPoE、WEB和IEEE 802.1X等。然而WEB认证方式中服务器端口直接可达,易
双基地合成孔径雷达(BiSAR)作为传统单基地SAR的延伸,由于其自身的灵活性和对低散射截面物体的探测成像能力,大大地拓展了SAR的应用范围。具有移变(translational-variant)特
本文从管理的自然属性和国家在社会经济活动中的一般管理职能的角度对区域性设备管理工作的五项主要内容进行了分析,即了解和掌握区域内设备资产存量的结构及其分布和变动情
手写笔作为十分重要的信息输入方式,影响着人们的生活。本文进行的是基于惯导信号的手写笔笔迹检测的研究,主要是通过对获得用户在书写过程中的惯导信号进行分析处理,最终可以检
高分辨成像一直是雷达成像不断追寻的目标。为了达到这一目的,最常见的做法是提高发射信号的带宽,但是超宽带信号的产生和处理会带来很大的硬件压力。本文重点介绍了一种通过
口语评测是一种学生按照某种要求发音,计算机根据学生发音的标准程度来自动评分的技术。传统的文本相关评测任务要求学生严格依照指定的文本发音,对应朗读或者严格背诵的情境