论文部分内容阅读
近年来,随着计算机技术和深度学习理论的发展,基于深度神经网络(DNN)的声学建模方法获得广泛应用,相较于传统的高斯混合模型-隐马尔科夫模型(GMM-HMM),其显著提升了语音识别系统性能,识别系统在说话人距离麦克风距离较近的近场场景下已具有较高的识别准确率。与此同时,语音识别的研究热点转向了更加实际也更具挑战性的远场语音识别(DSR)。在说话人距离麦克风较远的远场环境中,语音信号受到噪声、混响以及非目标人声干扰等因素影响,导致识别准确率大幅度降低。本文对基于深度神经网络的远场语音识别声学建模技术展开研究。为提高远场语音识别性能,本文分别从声学模型的网络结构、输入特征以及训练目标值三个方面进行研究。本文的主要研究工作和创新点包括: 1.提出一种基于注意力长短时记忆(LSTM)神经网络和多任务学习的声学建模方法。基于深度神经网络的声学模型一般将上下文多帧特征简单地拼接作为输入,缺点是忽略了对每帧特征本身所包含的时间信息的利用,因为不同时刻的特征对于当前时刻状态预测的贡献不一定是相同的。为此,本文针对基于LSTM的混合声学建模框架提出一种注意力机制,自动学习调整对上下文扩展输入特征的关注度。同时,在模型训练阶段采用联合预测声学状态和干净特征的多任务网络结构,来进一步提升声学模型在远场场景下的鲁棒性。 2.提出一种基于空间特征补偿的多通道声学建模方法。远场语音识别系统通常采用多个麦克风录制语音信号。与采用单个麦克风相比,其优势在于可以提供目标说话人的空间信息。传统的多通道语音识别系统一般采用两个独立的系统模块,即前端的多通道语音增强和后端的语音识别器。然而,当最终目标为提高语音识别准确率时,将增强模型独立于声学模型单独优化并非最优解决方案。为解决此问题,一些研究者提出前后端联合优化的方法。但是,这些方法一般需要引入若干层神经网络来估计波束形成的滤波系数,导致最终用于识别的模型参数量较大。本文中,我们提出将编码声源位置信息的信道间相位变换广义互相关(GCC-PHAT)做为空间特征补偿,与多通道声学特征拼接输入深度神经网络声学模型。该方法通过利用神经网络输入特征的灵活性,有效地提高了深度神经网络对多通道语音信号的声学建模能力。与此同时,将此方法与之前提出的注意力机制相结合,系统性能得到进一步提升。 3.将教师学生迁移学习框架应用于远场语音识别声学建模。远场语音信号受噪声和混响等因素的干扰,不同声学单元之间的区别性变得模糊。若仍然采用强制对齐得到的0-1分布做为目标值,基于深度神经网络的声学模型很难学习。因此,含有更丰富信息的软判决标注更适合远场语音声学模型的训练。为得到可靠的非0-1分布目标值,本文挖掘与远场语音同步录制的近场语音信号中蕴含的信息,利用教师学生迁移学习框架训练远场语音识别声学模型。实验结果显示,与0-1分布目标值训练的声学模型相比,该模型在远场单通道和多通道语音识别任务上均取得了性能提升。与上述提出的两种方法结合后,识别系统可获得进一步的性能改善。