基于粒子滤波的音视频联合单说话人跟踪

来源 :兰州理工大学 | 被引量 : 3次 | 上传用户:ancdtang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人跟踪问题是实现人机交互的一个重要研究课题,针对基于单模态单特征的说话人跟踪算法鲁棒性差,定位精度低的问题,本文研究了一种基于双模态的说话人跟踪方法,充分利用音频信息和视频信息的互补性和冗余性,实现复杂环境下说话人鲁棒而精确的跟踪。本文深入研究了音视频联合的说话人跟踪问题,取得了以下的研究成果:(1)考虑到单一音频特征定位精度低和鲁棒性差的问题,采用一种基于到达时间差和波束输出能量联合定位说话人的两步定位方法。线性麦克风阵列中,先采用到达时间差特征进行声源的粗定位,获得声源的最大似然空间,之后进行细定位,引导波束输出在该似然空间内搜索能量最大的位置,并将该位置作为声源的最佳估计位置。(2)将D-S理论应用于视频多特征融合问题,设计一种基于改进D-S理论的视频多特征融合方法。本文先从证据源的可靠性和冲突分配两个角度改进了标准D-S理论,使其能适合说话人跟踪系统实际环境,之后,在粒子滤波的框架下,采用改进的D-S理论先融合每个摄像头的颜色直方图特征证据和方向梯度直方图特征证据,最后将每个传感器的局部融合证据再次采用改进的D-S理论进行总体融合,从而得到最终融合结果。(3)结合信息熵理论的相关知识,提出一种基于不确定性度量的音视频特征融合方法。在粒子滤波的框架下,选用到达时间差作为音频定位特征,颜色直方图作为视频定位特征,运用信息熵和方差理论定义特征的不确定性,由不确定性融合公式得到融合后的似然函数,进而生成粒子权值,得到说话人的最佳估计位置。
其他文献
随着组网技术的不断更新、业务种类的日益增多、网络规模的持续扩大,人们对于互联网的规模、功能和性能等方面的需求也变得越来越高。当前的网络体系架构已经难以满足社会经济
近年来,谱聚类算法是聚类分析的一个重要分支,是模式识别、机器学习、数据挖掘等学科领域的重要研究内容之一。谱聚类是一种基于相似度矩阵的聚类算法,根据谱图分析理论对相
一直以来人们对位置服务的需求都十分强烈。在目前日益增长的定位服务需求下,无论是室内还是室外,如何准确快速地获得位置信息并且提供低成本位置服务成为定位技术发展的方向。
近年来,随着智能电网技术的兴起,集中式抄表系统作为智能电网的一个应用分支取得了快速的发展。然而数据传输方面存在的问题阻碍着集中式抄表系统的大规模应用。无线集中式抄表
随着信息技术的不断进步,数据传输朝着可靠和快速的方向发展。对于无线传输方式而言,传统的窄带传输在抗干扰性、保密性和可靠性等方面表现出不足,扩频通信技术由此应运而生,直扩
随着LTE商用网络建设进程的加快,网络监测将为网络部署和运营维护提供重要支撑,为实现网络状态监控、业务质量评估、故障定位和性能优化提供可靠依据。LTE网络具有数据传输速率
随着C网分组域网络的各类数据业务的飞速发展,网络中分组业务流量的日益增大,对网络性能监测和维护的需求也日益增加。分组业务流量的增大也给现有的网络监测技术的实时处理速
传统网络中存在资源利用率低、业务延时明显和负载均衡效果差等问题,认知网络的出现为解决以上问题提供了可能。相比传统网络而言,认知网络具有学习推理和智能决策等特点,通
伴随着信息化时代的快速发展,信息存储量的急剧增加使得网络传输面临很大的挑战,同时,愈来愈多的信息窃取、网络攻击等安全问题迫使人们积极探索信息安全的相关技术。数字图
随着经济发展,人们对物质生活的追求不断提高,尤其是对车辆的需求,因此桥梁在使用过程中的安全隐患也越来越多,同时滑坡、泥石流等灾难性的地质灾害也频频发生。这一系列的安全性