智能环境下基于音视频特征融合的多说话人跟踪研究

来源 :兰州理工大学 | 被引量 : 0次 | 上传用户:gsy2589
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着远程视频会议系统以及自动会议分析系统的发展,智能环境下说话人跟踪问题已成为人机交互领域的研究热点,它在以人为基础的普适计算、视频会议系统以及机器人导航等领域都有着广泛的应用。随着当前自动会议分析系统的发展,以往基于麦克风阵列与基于计算机视觉的单模态跟踪技术已无法满足复杂条件下对说话人跟踪系统整体精确性与鲁棒性的需求。基于此,本文就智能环境下音视频多特征融合的多说话人跟踪方法方法展开了深入的研究,主要取得的研究成果如下:   (1)针对粒子滤波算法在说话人跟踪系统中的广泛应用,本文对粒子滤波算法展开了深入的研究。考虑到一般系统状态的转移概率密度函数无法实现最新量测信息的实时更新,容易导致权值退化问题的出现,本文采用有限中心差分的方法对系统的重要性概率密度函数进行迭代更新,并通过引入噪声信息差值的方法,对系统的采样粒子数进行在线调整,实现了粒子采样的实时更新,一定程度上克服了粒子采样的权值退化问题。   (2)针对基于麦克风阵列的说话人跟踪问题,本文提出了一种基于自适应有限差分粒子滤波的说话人定位跟踪方法,该方法将自适应差分粒子滤波引入到声源定位跟踪系统,实现了低信噪比与强混响环境下说话人的鲁棒跟踪问题。   (3)针对基于计算机视觉的人体头部跟踪问题,本文考虑采用人体头部的颜色和椭圆轮廓的最大梯度距离测度(DMG)信息作为特征观测量,在D-S证据理论的框架内实现了同类信息的融合处理,有效避免了基于单一颜色特征在光照突变、姿态变化以及背景相似等情况下的跟踪稳定性较差的问题,一定程度上提升了人体头部跟踪的精确性和鲁棒性。   (4)最后,本文在自适应有限差分粒子滤波算法的整体框架内,提出了一种基于音视频特征融合的多说话人跟踪方法,该方法在充分分析多个说话人动态运动模型规律的基础上,建立了基于滤波理论的状态方程和系统的观测模型,并实现了智能环境下音视频特征融合的多说话人跟踪问题。
其他文献
随着社会经济的快速发展,交通运输的制约矛盾越加突出,以智能交通系统(ITS)技术系统为代表的交通运输系统现代化进程成为有效解决问题的发展方向。现今ITS技术应用系统主要是建
在过去的数十年内,无线通信技术得到了十分迅猛的发展,人们已经在不知不觉之间步入了4G的时代。由于多输入多输出(MIMO:Multiple Input MultipleOutput)技术能够在不牺牲额外系
大数据背景下的中学图书馆能够为中学生提供更多个性化信息服务,促使中学生积累丰富的课外知识,全面提高学习能力和综合素养.然而在实际中,中学图书馆个性化信息服务方面还存
软件无线电技术因其通用性、灵活性、开放性等特点,越来越被广泛应用于无线通信、雷达、电子对抗等领域。它的主要思想是构造一个具有开放性、标准化、模块化的通用硬件平台,
随着人类社会在上个世纪大步迈入数字化时代,以人脸识别为代表的模式识别(PR)、机器学习(ML)等学科获得了科研学者的广泛关注,展现出了前所未有的巨大价值。在众多新兴的人脸
全球性的安全科学组织 UL ( Underwriters Laboratories)宣布将调速电气传动系统安全标准从UL 508 C (功率转换设备标准)统一成 UL 6180051。此次标准的调整将让制造商的电机
固态照明器件LED的快速发展给室内照明带来了深刻变革,在极高的发光效率之外,其能够进行快速光强切换的特性为信息调制创造了条件,由此产生了可见光通信技术。相对于射频通信
旁路分析作为一种新兴的密码分析方法,已经越来越被广泛的相关学者所关注。与传统的密码分析学不同,旁路分析不要求研究者掌握深厚的数学功底。它利用密码算法在执行时泄露的
农村图书馆是基层文化战略实施的重要着力点,也是提高农村居民文化素质的载体之一.本文以慈溪为例,首先分析了经济发达地区农村图书馆发展的现状、职能,接着从明确农村图书馆
随着移动通信业务需求的持续增长,移动通信已经成为当前世界上技术发展最迅速的学科之一。多输入多输出技术(MIMO)作为新一代移动通信领域的关键技术之一,也是目前移动通信领