论文部分内容阅读
在人机交互、智能教室、视频会议、特定环境监控等系统中,如何利用视听媒体间存在的天然时空相关性,将视觉信息和听觉信息有效地融合,从而实现对目标的跟踪、识别、判决等,是异类信息融合领域的一个热点问题,习惯上人们也称之为多媒体信息融合。本文充分总结和讨论了关于信息融合、视觉跟踪、声源定位以及滤波器性能的基本理论和研究现状,并在此基础上,给出了两种基于视频与音频信息融合的人物跟踪算法。一种采用多层次卡尔曼滤波器作为融合工具,建立视听信息特征级融合模型。一种以简化的重要性采样粒子滤波器(ISPF:imponance sampling particlefilter)作为融合工具,建立视听信息决策级融合模型。在特征级视听信息融合模型中,首先对采集得到的视觉和听觉信息单独处理,利用机器视觉相关理论获取目标的图像速度,同时采用基于时延的声源定位技术获取目标的实际运动速度,将两类速度的比值作为中间变量,对这一变量保持更新,并反馈给视觉跟踪系统,从而得到目标位置的最优估计。在决策级视听信息融合模型中,采用简化的ISPF算法为工具,将重要性函数的设计问题简化为对重要性粒子的选择问题,以基于颜色信息的模版匹配作为底层跟踪,对稳定的音频信息进行处理,获取一个具有特殊权重的中心粒子,通过该粒子对底层的视觉跟踪加以限制和引导。最后,通过仿真验证了上述视听融合模型的可行性,基于视听信息融合跟踪算法对光照条变、背景变化、人物混叠等杂波干扰都具有一定的鲁棒性。同时对两种融合策略进行了对比,通过对仿真结果的分析可以判定基于决策级的视听融合更具优越性。