论文部分内容阅读
利用麦克风阵列对室内说话人进行跟踪,是根据分布于空间中的多个麦克风接收的音频信号对运动说话人的位置信息进行估计。基于麦克风阵列的说话人跟踪技术在公共安全监控、音视频会议系统、语音识别、车载电话以及机器人等领域都有广泛应用。近年来,随着无线传感器网络、网络通信、移动计算以及集成电路技术的快速发展,生产小尺寸麦克风的成本越来越低,嵌入式处理器的计算能力显著增强,分布式麦克风网络逐渐发展起来,基于分布式麦克风网络的声源定位和跟踪成为语音处理领域一个新的研究热点。然而,目前大多数声源跟踪算法主要针对传统的规则麦克风阵列,并不能直接用于分布式麦克风网络。贝叶斯滤波是解决室内说话人跟踪问题的典型方法,它采用状态空间的方法对说话人跟踪问题进行建模。当状态空间模型为线性、高斯时,卡尔曼滤波是贝叶斯滤波的最优解;当状态空间模型为非线性、非高斯时,粒子滤波是贝叶斯滤波的有效近似解。在室内噪声和混响条件下,说话人状态的后验分布多为非高斯分布,其观测模型通常为非线性模型。据此,本文在贝叶斯滤波理论框架下,对现有的分布式粒子滤波算法进行改进,提高了滤波器的跟踪精度和鲁棒性;通过深入研究粒子滤波理论,提出了一种新的分布式粒子滤波器。在此基础上,将所提出的分布式粒子滤波算法应用于麦克风网络进行室内说话人跟踪,提出了一些针对性的改进措施。本论文的主要创新工作如下:(1)在现有的基于粒子权重一致性的分布式粒子滤波器中,其似然函数的计算要求各个节点的观测在给定状态的条件下相互独立,且需要已知观测噪声的统计信息。针对该问题,本文利用广域相干场函数在某一空间位置的取值反应了声源在该位置处的可能性大小的特点构建了一种伪似然函数,进而推导了一种广域相干场-分布式粒子滤波器,并将其用于麦克风网络中的说话人跟踪问题。该方法不要求各个节点的观测条件独立,也无需已知观测噪声的统计信息,且易于分布式计算。仿真和实际实验结果表明,所提出的方法在噪声和混响环境中具有良好的跟踪性能。(2)针对非线性高斯系统,提出了一种改进的分布式高斯粒子滤波器,并将其应用于麦克风网络中的说话人跟踪问题。该方法在预测阶段采用粒子的形式对状态的概率密度进行预测,并对各个节点的局部预测信息进行融合,进而使每个节点拥有状态后验概率的全局预测结果;在融合阶段根据一种最优的融合规则对各个节点的局部估计进行融合并去除了局部估计之间的公共先验,最终每个节点都拥有关于状态的全局估计。该方法只要求相邻节点间的局部通信,且允许各个节点的局部估计具有一定的相关性。仿真和实际实验结果表明,所提出的说话人跟踪方法在噪声和混响环境中能够对运动的说话人进行有效地跟踪。(3)针对包含线性、高斯子结构的非线性、非高斯系统,提出了一种分布式边缘辅助粒子滤波器。该算法利用边缘化技术将线性状态分量从状态空间模型中分离出来,并利用分布式卡尔曼滤波器来估计;而剩余的非线性状态分量则采用分布式辅助粒子滤波器来估计。针对说话人状态空间模型包含线性、高斯子结构的特点,将分布式边缘辅助粒子滤波器应用于说话人跟踪问题,通过边缘化技术将说话人的位置信息从状态空间模型中分离出来并采用分布式的辅助粒子滤波器来估计;而其速度信息则采用分布式卡尔曼滤波器来估计。此外,利用互相关函数的幅度信息和能量比,提出了一种时间延迟选择机制来去除不可靠的观测,提高了其跟踪性能。仿真和实际实验结果表明,所提出的方法在噪声和混响环境中具有良好的跟踪效果。