论文部分内容阅读
语音唤醒(Voice Wakeup)主要在智能音箱等设备上使用,是人机交互的新入口,也是智能语音领域的重要研究方向。在实际的应用中,由于噪声环境的存在,以及远距离识别,给语音唤醒带来了不小的挑战。另外由于硬件设备对内存大小、计算资源和耗电量等性能的要求,也需要我们不断改进语音唤醒的系统性能。针对这些问题,本文研究了基于深度超向量和基于迁移学习的语音唤醒系统,致力于改善语音唤醒的性能。本文的工作如下:1、通过对DNN-HMM模型的输入帧数、模型维度等参数的优化来提升语音唤醒的效果。并对干净数据进行加噪和远场处理,从数据源头来提升系统性能。最后通过稀疏化来提升训练速度。2、针对语音唤醒的登记和识别,在改进DTW的方式下,提出基于深度超向量的登记和测试方法,并采用了Cosine距离来衡量模板的匹配程度。3、将基于迁移学习的方法应用于语音唤醒,通过老师模型的知识来指导学生模型的训练,这是通过软标签的提取来实现的,以此提升语音唤醒的识别效果。4、将语音唤醒系统在ARM平台上实现,通过端点检测来输入语音流,实现唤醒与命令词识别两个功能,并给出语音提示的交互过程。