论文部分内容阅读
说话人跟踪技术是物联网、人工智能、智慧城市以及智能家居等研究领域的基础支撑技术之一。传统基于麦克风阵列的声源定位跟踪方法在噪声背景情况下容易出现虚拟峰值,导致估计错误。随着滤波技术的发展,研究人员采用贝叶斯状态空间的方法,利用运动状态模型的时间相关性和虚拟峰值的时间非连续性,很好地克服了这一缺陷。特别是适应非线性、非高斯系统的粒子滤波技术的提出,进一步促进了说话人跟踪技术的发展。 但是,当前的研究多数都是在系统噪声统计特性固定的情况下展开,人为设定系统噪声是相互独立的,且服从高斯特性,方差不变,完全忽略了模型及观测噪声对系统跟踪性能的影响。在实际的说话人跟踪系统中,由于房间混响累计效应的影响,导致观测噪声具有相关性,且统计特性无法预先精确获知,严重影响了跟踪器的精度和鲁棒性。本文以说话人跟踪技术为应用背景,在充分考虑环境混响噪声累积效应、系统模型偏差噪声以及传感器阵列量测噪声影响的情况下,进一步扩展了粒子滤波的基础理论和应用环境,并在粒子滤波框架内对非连续发音、多个说话人重叠发音情况下的说话人跟踪问题展开研究。主要完成了以下四个方面的研究内容: (1)基于相关检测的自适应粒子滤波方法。针对标准粒子滤波算法的采样密度函数没有融入最新观测信息的缺陷,采用中心差分计算方法对重要性密度函数进行实时更新,产生优化的建议分布函数,较好地融入了最新观测信息对采样函数的实时修正,保证了采样粒子的多样性;考虑到采样粒子数、滤波精度以及算法实时性矛盾的折中,利用说话人状态的观测值和模型估计值之间的相关性,在相关检测的思想建立了采样粒子数自适应更新规则,有效折中了跟踪精度与运行时间之间的矛盾,在仿真实验环境下验证了算法的有效性和优越性。 (2)噪声统计特性未知及相关情况下的粒子滤波理论。以系统噪声方差未知及特性相关情况下的说话人跟踪系统为背景,研究了噪声统计特性相关及未知情况的联合滤波估计方法。首先,在相关噪声模型的基础上构建说话人运动模型,分析求解相关噪声统计特性的分布函数,并给出了噪声联合概率密度函数的有效度量分解形式;接着,以独立分解的概率密度函数为基础推导了噪声统计特性与目标函数的联合估计数值表达式。最后,在考虑噪声统计特性未知及相关的基础上,针对不同混响时间情况下的跟踪精确性和系统抗干扰能力进行了实验分析。 (3)系统噪声统计特性时变情况下的自适应滤波方法。在实际的说话人跟踪环境中,由于多源噪声及房间混响的影响,导致系统观测噪声的统计特性不具有恒定不变性,预先设置的固定噪声方差会降低系统模型拟合的可信度。以噪声统计特性时变情况下的说话人跟踪问题为背景,研究了噪声模型模糊自适应跟踪实现方法。在粒子滤波的框架内采用布朗模型对说话人运动进行建模估计,根据平滑估计值和当前观测信息之间的相关性,对估计误差的均值和方差进行平滑处理;并基于平滑估计的误差特性采用模糊逻辑进行噪声方差的自适应调整,实时保证模型具有较高的拟合度,克服了传统滤波器不能对环境变化进行实时优化的缺陷。 (4)说话人发音断续及语音重叠情况下的跟踪问题。实际的说话人跟踪系统中,经常会出现语音的静默以及多人同时发音的重叠情况。首先,在粒子滤波的框架内,采用随机有限集(Random Finite Set: RFS)的思想进行说话人运动状态建模,将说话人的位置信息和发音状态综合成单个的变量集合,构成系统模型的单一状态变量;接着,将模型噪声进行解相关处理,保证在语音重叠情况下系统模型的相互独立性,为解决多说话人的语音重叠问题提供独立的噪声模型;最后,在提出的解相关噪声粒子滤波框架内应用RFS状态模型进行语音断续及重叠情况下的说话人跟踪处理。计算机仿真和实际场景下说话人跟踪效果验证了方法的有效性。 本论文针对系统噪声未知、时变及相关情况下的说话人跟踪问题展开研究,推导了相关的粒子滤波数值分析理论,并扩展说话人跟踪系统的应用范围,研究表明提高了复杂背景噪声条件下的说话人跟踪精确性和鲁棒性。