论文部分内容阅读
音素识别作为语音识别的一个子领域,一直是语音识别研究的一个非常重要的内容。音素识别的效果主要用于衡量声学模型的优劣。自从深度神经网络被引入到音素识别领域之后,语音识别技术及其研究获得了迅速的成长。目前许多研究者从提出不同的神经网络模型的角度来提升音素识别的效果。虽然这一研究思路在短时间内取得了一些进展,但是目前神经网络和深度学习技术应用的还存在着另外一种研究思路。这种思路被称作特征学习或者表示学习。这种思路目前在计算机视觉领域正在受到越来越多的关注,然而在语音识别领域还远未受到足够的重视。本文从特征学习这一思路入手,提出了一系列应用于声学特征参数的特征学习算法,从几个不同的角度从原始声学特征中学习出新的特征,然后基于这些新的特征进行音素识别任务,以验证这些特征的实际效用。本文的主要研究工作及贡献如下:一、提出了串联深度神经网络模型,并将其应用于音素识别任务。串联深度神经网络使用两级深度神经网络作为声学模型,原始声学特征参数通过第一级深度神经网络之后得到的后验概率分布被作为新的特征,输入到第二级深度神经网络中进行识别。在这样的过程中,第一级的深度神经网络可以被看作是一种特征学习的方法。我们深入研究了第二级深度神经网络的参数配置对音素识别性能的影响,在TIMIT核心测试集上的实验表明,基于最佳配置的串联深度神经网络模型的音素识别准确率相对提升了4%。二、提出了多变量高斯受限玻尔兹曼机模型,并将其作为特征学习模型应用于鲁棒性语音识别。多变量高斯受限玻尔兹曼机的提出是为声学特征参数向量定制的,目的是为了解决高斯受限玻尔兹曼机在描述声学特征参数向量中的劣势。在Aurora-2测试集上的噪声环境下的音素识别实验表明,与原始的声学特征参数相比,基于多变量高斯受限玻尔兹曼机模型提取的特征识别准确率平均提升了10%。三、提出了一种被称为对照自编码器的模型,该模型能够从原始声学特征参数中学习仅与特定任务相关的特征参数。一段语音的声学特征参数可能同时含有音位学、说话人特征相关和噪声等众多信息。这些信息有些与当前的特定任务有关,而有些无关。对照自编码器通过同时对两个深度自编码器以及它们之间的相互关系进行建模并联合优化,从而可以从原始声学特征参数中学习出新的与特定任务(如音素识别)相关的特征参数。实验证明了这种参数相对于原始声学特征参数在音素识别任务中的优势。四、提出了一种基于神经网络进行动态特征学习的框架,该框架可被用于学习可以替代传统动态特征的新动态特征。动态特征是语音识别中使用的声学特征参数的重要组成部分,我们提出使用神经网络学习动态特征,可以将动态特征的计算推广到一个更大可能的空间之中,并且通过对特定任务比如音素识别的优化来学习到最适合特定任务的动态特征计算方式。实验证明了该方法学习到的参数的有效性,并且发现在使用高阶参数的时候更为有效。