论文部分内容阅读
声源定位与跟踪(ASLT, Acoustic Source Localization and Tracking)技术是人机交互研究中的一个重要环节,在数字助听器、多媒体系统、视频会议系统和移动机器人等领域得到广泛应用。比如,在数字助听器中,通过对声源进行定位可以检测到说话人的位置,从而指向说话人,同时定向放大说话人的声音,去除无关的背景噪声;在视频会议系统中,能够利用声源的定位与跟踪向摄像机传递实时的位置信息,控制摄像机对准讲话的人;此外,移动机器人在进行路径规划时也要用到声源的空间位置信息。基于麦克风阵列的声源定位与跟踪方法计算量比较低,并且可以完成全方位的跟踪,目前已经成为声源定位与跟踪问题的主要解决方法。在实际的房间环境中,往往存在着由墙壁、地面和桌面的反射带来的混响以及风扇、空调等产生的噪声,这些都有可能对声源定位与跟踪的精度造成影响。本文首先分析了麦克风阵列声源定位的原理,介绍了阵列信号处理的背景知识,并建立了麦克风阵列语音信号处理模型,详细讨论了两种传统声源定位方法,并在传统定位方法的基础上提出了改进的基于SRP-PHAT的声源定位算法,仿真结果表明,改进算法在计算量降低的同时能够获得和传统算法相近的性能。而后接着介绍了粒子滤波的基本理论,给出了标准粒子滤波的算法流程,并介绍了基于遗传算法改进的粒子滤波,在此基础上探讨了基于粒子滤波的声源定位与跟踪算法的一个通用框架,并分析了在该框架下的四种方法,并在框架中SBF-PL方法的基础上,结合遗传粒子滤波,提出了基于遗传粒子滤波的改进声源跟踪算法。实验结果表明,改进算法可以有效提高系统对说话人的跟踪能力。