论文部分内容阅读
近年来,随着深度学习理论的快速发展,很多技术被成功应用于语音识别领域。卷积神经网络(Convolutional Neural Networks,CNN)作为深度学习的一项关键技术,在语音识别系统的构建中取得了良好表现,其局部连接和权值共享特性能够在一定程度上抵抗语音信号在时频域的偏移和畸变。此外,采用神经网络完成一体化建模的端到端语音识别方法,解决了传统混合模型存在的流程繁琐、非一致性优化等问题,进一步提高了卷积神经网络在语音识别中的应用潜力。但是,将卷积神经网络与端到端机制结合时,存在以往输入特征不满足实际需求、传统CNN处理方式会导致语音信号在时域和频域独立信息的弱化等问题。本文以提升基于CNN的端到端语音识别性能为目标,围绕声学模型的输入特征和前端处理网络进行研究,完成了以下工作:(1)对CNN端到端声学模型的结构进行了研究,重点研究了采用连结时序分类(Connectionist Temporal Classification,CTC)框架实现的端到端声学模型。以CNN作为输入端网络,将传统声学特征FBank组织成为了适用于CNN输入的形式,并针对FBank特征高度压缩的特性,设计了基于浅层池化、中层池化和深层池化的CNN模型。实验结果表明,深层池化模型效果最好,误识率达到了28.14%,比浅层池化方式相对下降4.83%。(2)对CNN端到端声学模型的输入特征进行了研究,由于传统特征过分依赖先验知识,在提取的过程中会造成频域信息的损失,不能充分发挥端到端系统中CNN的特征提取能力,本文引入了语谱图(Spectrogram)这种几乎包含了语音信号频域中所有信息的特征,并将其分别应用于搭建好的三种网络模型中。实验结果表明,Spectrogram特征在中层池化模型上的效果最好,误率达到了27.52%,比FBank特征的最优结果相对下降2.20%。(3)对CNN处理语音特征图的方式进行了研究,由于传统CNN的处理方式会导致语音信号在时域和频域中独立信息的弱化,本文提出一种时频域分阶段处理的方案,既保留各个语音帧的一维特性,又兼顾帧间的上下文信息。该方案由CNN的一维模型实现,并且按照处理顺序分为了时域-频域处理方式和频域-时域处理方式。实验结果表明,采用频域-时域处理方式更合适,误识率达到了25.92%,比使用传统CNN处理方式的最优结果相对下降5.77%。