论文部分内容阅读
通常人类可以在背景音乐、引擎声音和其他声学噪音环境中识别语音,但自动语音识别(Automatic Speech Recognition,ASR)系统在这种环境中表现不佳。最近在神经科学方面的实验和理论工作已经发现了许多可以用来解决这个问题的方法。本文基于生物启发的ASR方法在噪声环境下进行对ASR稳健性的研究。首先本文对谱时响应野(Spectrotemporal Receptive Field,STRF)进行理论研究,通过对比基于STRF的目标函数和ETSI在不同信噪比环境下的识别率,实验结果证明以听觉神经元STRF为模型的ASR在噪声环境下稳健性有所提高,但其整体性能没有明显改善。其次,本文使用基于尖峰模型神经元的语音表征方法,该方法中的神经元是特征检测器,其在语音的短时间窗口内选择性地响应时间特征。并且提出一种基于支持向量机(Upport Vector Machine,SVM)的训练神经元响应特性的方法,将STRF中的神经元计算结果与先前无辅助手段下的神经响应结果进行比较,发现神经元中的尖峰序列能够提高系统稳健性。本文使用两种方法对基于尖峰的语音表征进行解码,第一种方法使用基于隐马尔可夫模型的经典ASR技术;第二种方法是一种改进的基于模板的识别方法,该方法是基于尖峰序列之间最长公共子序列的语音相似性度量。在不同信噪比环境下进行正交优化实验,实验结果表明性能最优的组合为基于尖峰模型神经元的语音表征和改进的基于模板的识别方法。最后,应用标记音节核心位置的音节检测方法来解码连续语音的尖峰表征,该方法通过将音节信息并入ASR系统,并结合基于SVM的训练与峰值选择算法。使用该方法与传统方法在不同信噪比环境下进行连续语音解码,实验结果表明该方法有效提高在噪声条件下的识别率。然而,该方法在无噪声条件下的识别率低于传统方法。