论文部分内容阅读
基于麦克风阵列的说话人定位与跟踪是人机交互的一个重要研究课题,它在机器人、智能会议系统等领域有着广泛的应用。针对基于标准粒子滤波的音频单特征说话人定位精度低,鲁棒性差的问题,本文充分利用音频多特征的互补特性,并且对粒子滤波算法进行改进,提出一种基于音频多特征自适应融合的说话人定位方法,实现强噪声环境下说话人的精确定位。本文的主要工作和创新如下:考虑到标准粒子滤波中采用先验概率密度作为建议分布函数,丢失了量测信息,从而使得定位不准确的问题,采用迭代卡尔曼更新无味粒子滤波产生的均值和方差,形成新的建议分布函数,将最新的音频量测信息融入到建议分布函数当中,增强最新观测信息对系统模型的实时修正作用,提高系统模型的转移精度。并将改进的粒子滤波用在说话人定位中,提出一种基于迭代无味粒子滤波的声源定位方法。仿真结果表明,改进的方法相比于粒子滤波算法和无味粒子滤波算法有更精确的定位效果。针对基于音频单特征的定位容易受到背景噪声的影响,进而定位精度低和鲁棒性差的问题,通过引入特征信息的融合,提出一种基于音频多特征自适应融合的说话人定位方法。该方法首先构建出说话人定位系统模型,通过系统模型定义特征间的差异度函数,并以此评价不同特征对目标定位支持度的一致性。其次,通过分析加性融合和乘性融合的优缺点,以特征间差异度大小为依据,提出一种自适应的特征融合策略,通过比较差异度与限定阈值之间的大小来自适应选取融合策略。最后,在粒子滤波框架下,通过定义的自适应融合方法融合可控波束形成和相位变换加权的可控响应功率两种特征对说话人进行定位跟踪。并在不同运动轨迹下与基于上述单特征的定位结果进行比较,仿真实验表明,融合后的结果更好的利用了不同特征间定位信息的互补性,提高了说话人定位的精度。