论文部分内容阅读
计算听觉场景分析的研究动机是使计算机能够像人的听觉系统一样,有效地处理复杂声学环境中的目标语音。本论文的研究工作针对混合语音的语谱成组和声学建模等问题从计算听觉场景分析自底向上和自顶向下两个角度及其在语音识别中的应用进行了探索,主要包括以下三方面工作:
(1)在语谱的瞬时成组中,基于调频谐波的提取是言语知觉抗噪的重要机制这一机理,本文提出了基于多尺度Fan-Chirp变换的调频谐波多尺度分析方法,用来进行单通道混合语音的分离。实验结果表明分离出的语音信扰比相对于单尺度分析的基线系统有显著的提高。
(2)在语谱的序列成组中,受听觉机理中的启动效应的启发,本文提出基于说话人嗓音特性的语音时频片断序列成组,形成了单一说话人的目标语音流,进而实现对目标语音的识别。实验结果表明,低信噪比下经该听觉场景分析的计算模型处理的语音识别结果较原始混合语音有所提高。
(3)基于听觉场景分析中的模式理论,本文在自动语音识别中从数据和模型的失配问题及数据稀疏问题的角度,进行了子空间分析和模型选择的应用研究;并将贝叶斯阴阳和谐学习框架中的k主邻策略成功应用到大词汇连续语音识别的区分性自适应解码过程中,识别性能稳定提高。
上述工作有效地利用了听觉机理在生理和心理上的研究成果,在听觉场景分析的计算模型和自动语音识别中进行了研究和应用。