论文部分内容阅读
本论文研究基于音频视频信息融合的人物跟踪算法以及对于现场档案系统的初步设计两方面。为了克服传统的只依赖视频或音频信息的跟踪算法在复杂和动态环境下的脆弱性,我们通过融合音频视频两方面的信息对人物进行跟踪,以提高跟踪的可靠性和鲁棒性。本文提出了一种新的基于音频视频信息融合的人物跟踪算法。该算法采用Importance Particle Filter作为融合工具,首先分别使用音频信息和视频信息进行跟踪,然后用跟踪得到的结果单独提出先验概率分布,依照先验概率分布采样后,再通过音频和视频信息融合的观察模型计算采样点权值,得到后验概率并进一步得到最终跟踪结果。我们的算法使得音频和视频信息的地位更为对称,从而能更好的发挥其互补作用。同时我们在算法中引入了反映音频和视频信息可靠性的权值,在算法运行过程中能动态调整这些权值。实验表明我们的算法比单纯使用视频信息的跟踪算法具有更好的鲁棒性,同时对光照条件改变、背景变化、人物交错等干扰都具有一定的鲁棒性。在该算法的基础上我们实现了一个实时人物跟踪系统,该系统能被应用在智能教室环境中,对前台的说话人进行跟踪并同时定向采集其声音,从而使得人物不再局限于麦克风的位置,而能在较大范围内活动。现场会议档案系统是普适计算研究的一个热点和实验环境,我们分析了基本的应用环境,对其设计了相应的场景、数据流、功能模块和系统结构,并初步定义了其中较重要的事件。我们设计了该档案系统所具有的两个特点,即实时性和语义性。实时性是指系统能对某些场景作出实时的反应,调整自己的行为;语义性是指系统将根据含有语义信息的“事件”等概念来对数据进行存档和检索。在现场档案系统中将集成基于音频视频信息融合的人物跟踪系统并将进一步结合说话人识别、人脸识别等身份识别技术来得到人物身份,从而为会议内容分析提供基础的信息。本文介绍了我们在这方面的初步结果。