论文部分内容阅读
麦克风阵列在视频会议、语音增强、机器人控制等领域有着广泛的应用,而在其诸多应用中,声源定位处于基础和核心地位。本文围绕混响环境下的声源定位问题,深入研究了基于麦克风阵列的声源定位算法的关键技术和系统实现。
本文首先详细分析了基于相位变换加权的广义互相关(GCC-PHAT: Generalized Cross Correlation-Phase Transform)时延估计算法和基于相位变换加权的可控响应功率(SRP-PHAT:Steered Response Power-Phase Transform)声源定位算法的原理。在此基础上,根据声源定位系统硬件平台提供的应用程序接口,设计了定位系统的软件流程,在定位系统上实现了SRP-PHAT算法的优化版本SRP-PHAT-D(SRP-PHAT Algorithm Based on Discrete Time Delay)算法。在SRP-PHAT-D算法的实现中,本文利用FFTW(Faster Fourier Transform in the West)开源库计算所有麦克风对的GCC-PHAT函数值,并针对SRP-PHAT-D算法声源空间网格点搜索计算量大的缺点,实现了K-means算法对声源空间网格点的聚类优化,使搜索计算量降为原计算量的1%,大大降低了定位算法的计算量。最后,针对系统仰角定位成功率偏低的问题,给出了滑动窗平滑方案对其进行进一步的平滑处理,提升了定位成功率。
本文为声源定位演示系统设计了友好的软件界面,可以直观显示可控响应功率的功率谱。实际对演示系统的性能测试表明,该系统水平角和仰角定位成功率达95%以上,一次定位耗时仅为0.707ms,满足实时要求。