论文部分内容阅读
近年来,随着远程视频会议系统以及自动会议分析系统的发展,智能环境下说话人跟踪问题已成为人机交互领域的研究热点,它在以人为基础的普适计算、视频会议系统以及机器人导航等领域都有着广泛的应用。随着当前自动会议分析系统的发展,以往基于麦克风阵列与基于计算机视觉的单模态跟踪技术已无法满足复杂条件下对说话人跟踪系统整体精确性与鲁棒性的需求。基于此,本文就智能环境下音视频多特征融合的多说话人跟踪方法方法展开了深入的研究,主要取得的研究成果如下:
(1)针对粒子滤波算法在说话人跟踪系统中的广泛应用,本文对粒子滤波算法展开了深入的研究。考虑到一般系统状态的转移概率密度函数无法实现最新量测信息的实时更新,容易导致权值退化问题的出现,本文采用有限中心差分的方法对系统的重要性概率密度函数进行迭代更新,并通过引入噪声信息差值的方法,对系统的采样粒子数进行在线调整,实现了粒子采样的实时更新,一定程度上克服了粒子采样的权值退化问题。
(2)针对基于麦克风阵列的说话人跟踪问题,本文提出了一种基于自适应有限差分粒子滤波的说话人定位跟踪方法,该方法将自适应差分粒子滤波引入到声源定位跟踪系统,实现了低信噪比与强混响环境下说话人的鲁棒跟踪问题。
(3)针对基于计算机视觉的人体头部跟踪问题,本文考虑采用人体头部的颜色和椭圆轮廓的最大梯度距离测度(DMG)信息作为特征观测量,在D-S证据理论的框架内实现了同类信息的融合处理,有效避免了基于单一颜色特征在光照突变、姿态变化以及背景相似等情况下的跟踪稳定性较差的问题,一定程度上提升了人体头部跟踪的精确性和鲁棒性。
(4)最后,本文在自适应有限差分粒子滤波算法的整体框架内,提出了一种基于音视频特征融合的多说话人跟踪方法,该方法在充分分析多个说话人动态运动模型规律的基础上,建立了基于滤波理论的状态方程和系统的观测模型,并实现了智能环境下音视频特征融合的多说话人跟踪问题。