论文部分内容阅读
空间声特征提取和声场重建是三维音频信号处理的关键技术,旨在构建具有三维空间听觉感受的声音场景。现有三维音频处理技术通常对声音场景中的每个声源对象进行独立记录、处理。而在实际三维音频信号处理过程中,在原始声音场景中只能获得多个声源的混合录制信号,这使得现有技术不便于在实时处理场景中应用。因此,研究精确的定位和分离方法从混合录制信号中提取源信号和对应的空间信息显得尤为重要。针对上述问题,本文基于信号稀疏性分析开展研究工作,旨在研究复杂声学条件中的多声源定位和分离方法。为了便于实际应用,本文方法专注于研究声源数量大于麦克风数量情况下多声源定位及分离的通用方法。论文的研究工作包括以下几个方面:第一,提出了一种基于单声源区域检测的多声源定位与计数方法。本文通过对语音信号的弱稀疏性进行统计分析,得到一个更广义的稀疏性的假设,并通过实验验证了多声源发声时“单声源”区域的存在性。基于此,本文提出了一个基于“单声源”区域检测的多声源定位方法,该方法可以通过波达方向估计的归一化直方图结合峰值搜索同时估计出原始声音场景中声源的数量及对应的波达方向。实验结果表明,与现有技术相比,所提方法具有更高的估计精度。第二,提出了一种基于单声源点检测的多声源定位方法。首先,本文给出了一个“DOA收敛”假设,即,如果某个时频区域内的大部分的时频点只来源于一个声源—这些对应的时频点定义为单声源时频点,则该区域相应的DOA估计值会相对集中,并且具有较大的密度。随后本文通过统计分析验证了这一假设的合理性。基于该假设,本文将单声源点的检测问题转化为一个聚类问题,并实现了基于K-均值和基于密度的空间聚类的单声源点检测方法。最终提出了基于单声源点检测的多声源定位方法。实验结果表明,所提方法的定位精度优于基于单源区检测的定位方法。第三,提出了一个联合稀疏成分和非稀疏成分恢复的多声源分离方法,旨在从声场麦克风录制信号中恢复多个声源信号。本文将麦克风录制信号的频谱分为两类:一类是稀疏成分,对应于只有一个语音源活跃的时频成分;另一类为非稀疏成分,即剩余对应多个声源活跃的时频成分。对于稀疏成分的分离,本文提出了一个基于麦克风录制信号间相关系数的动态阈值分离方法。对于非稀疏成分,本文以分离得到的稀疏成分作为指导结合“局部区域稳定性”进行恢复。最后通过对稀疏成分和非稀疏成分的合成,得到最终的分离信号。客观和主观实验结果表明,与现有的声源分离方法相比,该方法取得了更好的语音感知质量。