论文部分内容阅读
语音分离作为一种可以从混合语音中获得源语音的有效手段,受到越来越多的关注。现有的智能电子终端设备中的麦克风数目往往少于声源数目,极端情况下往往只有一个麦克风。因此单通道语音分离技术变得越来越重要。近年来字典学习算法越来越多的被用来解决单通道语音分离问题。基于字典学习的单通道语音分离算法假设不同声源具有其独特的成分,所以不同的声源可以用不同的字典进行稀疏表示。但是语音作为一种短时平稳信号,在处理时需要对其加窗截断,而截断之后的不同声源的语音信号的相关性大大增加,进而导致了不同声源具有了相似的成分。本文以此为出发点,提出了一种基于序贯区分性字典学习的单通道语音分离算法以及用于提高分离之后语音质量的语音后处理框架。本文主要内容与创新点如下:1.联合利用不同源语音的独特成分与相似成分,并构造了基于序贯思想的多层具有区分性的字典,在每一层中字典分为区分性子字典以及缓冲子字典。在训练阶段,我们通过构建合理的目标函数来确保各个源语音的独特成分尽可能多的分布在与之对应的区分性子字典中,相似成分则尽可能多的分布在缓冲子字典中。而分布在缓冲子字典中的成分则作为下一层字典的训练样本。在分离阶段,首先分离出当前层各个源语音的独特成分,其相似成分则在下一层中进行分离,直至混合语音得到完全分离。实验结果表明,基于序贯字典学习的单通道语音分离算法能够有效地降低分离之后语音之间的相互混淆。2.由于分离之后的语音仍然混杂着其他声源而且存在一定程度的失真,因此我们构建了包含三个子模块的语音后处理框架。这三个子模块分别为:降低训练集与测试集不匹配的自适应分离模块、降低分离之后语音相互干扰的时频掩码滤波模块以及降低语音失真的谐波重建模块。实验结果表明,通过该后处理框架,分离之后的语音质量得到了有效的改善。