论文部分内容阅读
基于语音的命令控制功能可以让驾驶者更加自然地控制车载电子设备,也能减少驾驶者因操作车载电子设备而分神,从而极大地提高行车的安全性。由于语音命令词的识别需要持续运行,为了减小对资源的消耗以及考虑到车辆运行时可能出现网络状态不佳甚至无网络的情况,研究搭建一个可离线使用、资源要求小、识别率高、噪声鲁棒的命令词识别模型具有重要的应用价值。为此,本文进行了如下的研究工作:一、研究了无噪环境下的命令词识别。考虑到CNN善于局部建模、RNN善于序列建模,提出一种同时含有卷积和循环两种操作的神经网络结构CGRU,据此搭建命令词识别模型;实验结果表明,基于CGRU的识别模型在本文实现的7个识别模型中取得了最高的命令词识别率,为96.65%,比次佳的ResCNN模型的96.53%还高,且所需的乘法运算量仅为ResCNN模型的1/25。二、研究了基于深度学习的单声道降噪。考虑到fbank特征是命令词识别模型的输入的组成部分,且其维度一般远低于FFT频谱的维度,提出对fbank特征进行降噪;考虑到车载噪声随时间的变化比语音平缓,使用善于局部处理的CNN来处理当前帧的邻域可更好地提取出噪声信息,据此提出基于CNN-RNN的降噪模型。实验结果表明,相比于RNN降噪模型,CNN-RNN降噪模型使MSE平均降低了24%,且使参数数量、乘法运算量分别减少了62%、55%。三、研究了车载噪声环境下的命令词识别。考虑到降噪模型无法完全地消除噪声,在整合降噪模型和无噪环境下的识别模型后,重新训练识别模型可减小测试数据和训练数据的不匹配程度;对两种重新训练的方式进行了实验:1.使用随机初始化参数的方式重新训练识别模型;2.在当前模型参数值的基础上重新训练识别模型。实验结果表明,以方式2重新训练识别模型,可增强识别模型的噪声鲁棒性,在-15 dB信噪比下也能取得94.94%的识别率,且平均识别率达到了96.40%,仅比无噪时的识别率低了0.25%。