论文部分内容阅读
语音分离技术尤其是基于人耳听觉的语音分离技术,在语音增强、语音识别和助听器等语音信号处理领域具有重要的地位。本文以双耳空间信息为基础,结合语音信号的稀疏性,提出了两种基于双耳定位的语音分离方法:基于时频掩蔽的语音分离和基于压缩感知的语音分离。对于基于空间信息的多声源混合语音分离,论文主要做了以下几方面的工作:(1)分析了双耳定位的语音分离的研究思路。空间听觉是人耳听觉的一个重要特性,多声源环境下,人耳听觉系统首先整合声源的空间信息,经由大脑的中枢神经,进行定位及分离,本文根据该特性,提出了先通过双耳定位算法对多声源进行定位,再根据定位结果进行语音分离的思路。(2)研究了双耳多声源定位算法。通过对耳间时间差和耳间强度差两个声源定位线索进行模型训练,建立方位映射模型,将多声源混合语音进行参数提取,通过耳间时间差与耳间强度差的联合判定,获取多声源定位结果,包括声源个数及其对应的水平面上的角度。实验结果表明,该定位算法对单声源至多声源定位有较高的定位准确度。(3)提出了基于双耳定位结果的时频掩蔽语音分离算法。在多声源环境下,在频域的同一频点,能量最大的声源将掩蔽其它能量较小的声源,最终只有一个信号占主导,本文依据语音信号的频域稀疏性,根据声源定位的结果,将所有时频点都划分为离该时频点距离最近的声源,将每个声源所划分到的时频点进行时域转换,获得该声源的分离信号。基于双耳定位的时频掩蔽语音分离其实验结果要明显优于同类算法。(4)提出了基于双耳定位结果的压缩感知语音分离算法。本文分析了基于双耳的多声源混合模型,其形式与基本的压缩感知模型是相一致的,因此,本文利用双耳定位结果、声源的字典信息和混合语音构建出压缩感知模型,采用正交匹配追踪算法对多声源混合语音进行重构,实验结果表明,语音分离指标SIR、SNR与时频掩蔽方法相比获得有效提高。