论文部分内容阅读
本文的双模态车载语音指令识别系统,利用视觉信息辅助语音识别,可以在一定程度上提高噪声环境下语音识别系统的识别率。但在实际应用中,说话人以及车载周边环境的改变会使系统性能下降。尤其在高噪声(车速80km/h以上)的环境下,系统的正确识别率会显著下降,双模态车载语音指令识别系统要走向实用,就必须克服这种不鲁棒的问题。在语音识别系统采用在线学习方法,一方面可以降低不同说话人语音差异对系统造成的负影响,另一方面,可以提升系统对车载环境的适应性,增强在噪音环境中识别系统的稳健性。因此,在线学习技术的意义显得十分重要。本论文采用在线式+有监督式的方式,利用少量的在线学习数据来提高系统性能,很好的解决了说话人和环境差异的问题。主要工作包括以下三个方面:1.讨论并研究了两种基于模型的在线学习算法:最大后验概率(Maximum a Posteriori,MAP)和最大似然线性回归(Maximum Likelihood Linear Regression, MLLR)。通过实验,与初始系统的识别性能进行对比,发现不论使用哪种算法都能使系统有明显的改善。其中MAP具有良好的渐进性,但收敛性较差,MLLR在很大程度上改善了收敛特性,但其渐进特性却不如MAP。2.提出并实现了结合MAP和MLLR两种算法的综合渐进在线学习方法。首先对两种算法分别讨论其优缺点,并通过实验,发现结合了两种算法优点的综合渐进在线学习方法,其效果优于单独任何一种方法。然后针对系统音视频双模态的特殊性,本文采用了两种不同的学习策略,一是对听觉语音和视觉语音分别进行在线学习,将学习后的语音模型和视觉模型组合成一个新的双模态模型;另一个是对听觉信息和视觉信息在特征层上融合,然后对融合后的双模态信息进行在线学习,直接训练出一个新的双模态模型。实验结果表明,后一种策略能够更好的克服车载噪音对识别系统的影响,增强系统在不同说话人不同环境中的鲁棒性。3.设计并实现了在线学习系统。完成了系统中的人机语音对话式交互处理模块,以及双模态在线学习模块。实验表明该模块可以有效地降低外界语音的干扰,并对系统的在线学习起到监督式作用。