论文部分内容阅读
麦克风阵列已经应用于众多领域,包括语音识别、说话人识别、语音采集、视频会议和人机接口等。声源定位在麦克风阵列应用当中起着至关重要的作用,然而在有噪声和混响的环境中定位性能会有所下降。本文致力于提高麦克风阵的声源定位性能,论文的主要工作包括:
1)基于自适应频率选择的鲁棒时延估计算法。相位变换加权的广义互相关方法(GCC-PHAT)是一种常用的时延估计方法,为了增强GCC-PHAT对噪声的鲁棒性,提出了一种基于自适应频率选择的改进算法。该算法利用较短的语音数据(32ms)估计出每个频率的信噪比(SNR),然后自适应地选择SNR较大的频率用于时延估计。仿真实验结果表明,相对于GCC-PHAT方法,本文算法对噪声的鲁棒性更强。
2)基于主特征向量的改进可控响应功率声源定位算法。相位加权的可控响应功率(SRP-PHAT)声源定位方法具有较强的鲁棒性,然而在强混响含噪声环境里SRP-PHAT的定位性能下降。本文提出了一种基于主特征向量的改进可控响应功率声源定位算法。首先用因子分析法估计混响信号,得出混响信号可以用麦克风阵列信号的第一个主成分近似;然后估计出的混响信号用于定位;最后得到基于主特征向量的改进可控响应功率声源定位算法。该主特征向量可以从频域相关矩阵中得到。仿真数据与实际数据的实验结果均表明:基于主特征向量的声源定位算法的性能优于SRP-PHAT算法。
3)基于鉴别互相关函数的声源定位算法。SRP-PHAT是当前最流行的定位算法之一,基于SRP的定位算法具有较强的鲁棒性,然而在很恶劣的噪声和混响环境下,特别是当麦克风接收不到声源发出的直达声时,该类算法无法确定声源的位置。近年来,基于分类的方法被用于在恶劣的环境里估计声源位置。本文提出了一种基于鉴别互相关函数的声源定位算法,这是一种基于分类的定位算法。利用相位变换加权的广义互相关方法(GCC-PHAT)求互相关函数。这种基于分类的定位算法包含训练和定位两个阶段。在训练阶段获得每个位置的互相关函数高斯模型。在定位阶段,首先由测试数据生成互相关函数,然后由互相关函数生成特征向量,最后利用两种分类器之一确定声源位置。这两种分类器是:朴素贝叶斯分类器和欧氏距离分类器。实验结果表明在有噪声的混响环境中,基于鉴别互相关函数的声源定位算法的定位性能优于SRP-PHAT算法。
4)基于双耳互相关函数的声源定位算法.为了提高受生物启发的定位算法的定位成功率,提出了一种基于双耳互相关函数的声源定位算法。该算法包含2个阶段:离线阶段和在线阶段。在离线阶段,测量与头相关脉冲响应(HRIR),并计算所有HRJR的双耳互相关函数(BCCF)。当处于在线阶段时,首先,计算接收信号的BCCF;然后,计算接收信号的BCCF与所有HRIR的BCCF之间的皮尔逊(Pearson)相关系数;最后,将最大的皮尔逊相关系数对应的方位作为估计的声源方位。实验结果表明,在有2个声源同时存在的情况下,相对于Cross-channel定位算法,该算法把主峰定位成功率和次峰定位成功率分别提高了约1.64%和26.48%。