基于深度强化学习的视频目标跟踪算法研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:nwwwdff
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频日标跟踪是计算机视觉研究领域的重要组成部分,目的是对视频序列中特定目标进行检测,以得到其位置以及运动轨迹信息,进而完成更为高级的理解和分析任务,其在智能监控、无人驾驶以及智能医疗中广泛应用。当在跟踪中出现目标形变、遮挡以及背景杂乱等挑战时,深度学习目标跟踪算法往往不能很好的应对,从而导致跟踪任务失败。将强化学习结合深度学习用于日标跟踪,直接利用马尔科夫决策过程对跟踪序列求解,可使得满足跟踪精度的同时提高跟踪速度,两者之间达到有效平衡状态。基于此,本文对深度强化学习视频目标跟踪算法继续研究,主要提出了两种算法,一是改进的基于Actor-DoubleCritic 网络目标跟踪算法,二是基于多任务元学习的动作决策网络目标跟踪算法,主要研究内容如下:(1)针对深度学习目标跟踪算法在目标被遮挡、形变以及旋转时导致跟踪鲁棒性差的问题,提出了改进的基于 Actor-Double Critic 网络日标跟踪算法。改进点主要分为两部分。一是双 Critic 网络。在离线训练时,利用所设计的双 Critic 网络接收该 Actor 输出的动作值,进而输出双Q 值再取平均值,以指导 Actor-Critic 网络的学习过程相对于单 Critic网络,双网络设计使得算法在遮挡属性序列上的跟踪性能得到较大提升。二是设计了一种有效奖赏函数。在在线跟踪中,基于马尔可夫决策过程,Critic 网络对于输入的三维动作值,利用设计的细致奖赏函数对输入的动作进行评价,该奖赏函数在-定程度上可指导输出积极动作,使得算法在形变以及旋转场景下的跟踪精度较高。最后,对改进算法和四种主流跟踪算法进行了可视化分析,实验结果表明,所提算法整体表现出了较好的跟踪效果。(2)针对改进算法在标分辨率较低、尺度发生改变以及有背景干扰情况下导致跟踪效果一-般的问题,提出了基于多任务元学习的动作决策网络目标跟踪算法。该算法分为离线训练和在线跟踪两部分,其中,离线训练又分为多任务学习训练和强化学习训练两阶段,多任务学习阶段,动作决策网络不仅提取输入图像的目标通用特征信息,而且可预测出不同动作,从而具有单步决策的能力。强化学习训练阶段,利用所设计的奖赏函数训练网络以得到当前帧最优动作输出,以此实现多步序列决策。在在线跟踪中,为了使得跟踪器快速适应新的特定跟踪任务,提出了基于元学习的动作决策网络参数调整方法。最后,在标准跟踪数据集OTB100上,分别从定量以及定性两方面对所提算法和四种主流算法的性能进行了比较分析,同时也对算法的跟踪速度进行比较。实验结果表明,所提算法在低分辨率、背景杂乱以及尺度变化等场景下,跟踪精度和速度之间达到了有效平衡,实现了准确且鲁棒的跟踪。(3)针对跟踪中的遮挡、形变、旋转以及背景杂乱四种特殊场景,以所提两类算法为研究对象,进行了基于特殊属性的视频目标跟踪算法性能比较分析。首先,在具有遮挡、形变、旋转以及背景杂乱属性序列上,对所提算法与一些跟踪算法进行了精确度和成功率对比。其次,对算法的运行速度进行比较分析。对跟踪算法结果分析其不同适用性,最终目的是,根据用户对跟踪算法精度/速度的不同需求,为其挑选一种既合理又效率高的目标跟踪算法提供重要的选择依据。
其他文献
电力变压器的绕组变形在线检测多用扫频频响法(SFRA)进行检测,现有可用于绕组变形在线检测的信号源,因输出信号幅值较低,容易在检测过程中被淹没在现场强烈的电磁干扰中,导致无法对绕组进行在线检测。由此可见,设计信号源对实现绕组变形在线检测具有重要意义。因此,本文提出采用高频SPWM逆变技术设计可用于绕组变形在线检测的正弦扫频信号源,具体工作内容如下:首先,设计了由推挽变换器、单相全桥逆变器和LC滤波
学位
近年来,随着购物方式的改变,以无人销售模式为主的商店、超市及商场逐渐兴起,成为生活中不可或缺的一部分。目前,以传统方法为主的无人货架商品销售模式仍存在以下局限性:一是对商品重量和包装材料有特殊要求;二是购物结算时间长,效率低。因此,为简化购物结算过程和提高结算效率,开展无人货架商品销售状态识别方法研究,具有重要的工程意义和应用价值。本文基于上述局限性,开展基于深度学习的无人货架商品销售状态识别方法
学位
众所周知,深度学习在人工智能领域获得了巨大的成功,但其通常假设训练数据集与测试数据集需要满足独立同分布,当训练数据集与测试数据集存在领域差异时,无监督领域自适应方法(Unsupervised Domain Adaptation,UDA)为提升模型在目标域数据上的识别性能提供了可行的解决思路。而无监督领域自适应方法都假设在模型的训练过程中,目标域数据是能够被预先获取的。在许多应用场景中,源域与目标域
学位
伴随着经济的发展,能源短缺和环境污染问题也随之日益突出。以风力发电为代表的可再生能源得到了广泛地开发利用,风电大规模地接入电网可缓解能源短缺和减少环境污染,但这极大地改变了电网结构,产生了新的问题。近年来,直驱风力发电机组与电网相互作用引起的次同步振荡问题对电网的安全和稳定构成了严重威胁。本文围绕直驱永磁风力发电机组(Directly-driven Wind Turbine With Perman
学位
近年来,有机场效应晶体管(OFETs)因高集成度、成本低、可大面积加工以及对光波段全响应等优点被广泛应用于传感器、柔性显示器、射频识别标签以及探测器等相关领域。但OFET在应用于探测器时存在响应时间长、增益低以及场效应迁移率低等问题,需要在基础器件结构上进行改进以及在器件界面态进行修饰来进一步提高探测效率和器件性能。本文主要通过仿真和实验来研究引入平面刻蚀BC-OFET器件时,并五苯对THz波吸收
学位
水平连铸机是呈水平状态的连续铸铁设备,其生产的关键技术是拉坯参数(拉坯速度、拉坯时间与停歇时间)设置,拉坯参数主要取决于铸造参数(铸坯温度、棒径以及冷却水流量)的状态,其中铸坯温度由于对拉坯参数设置影响较大需实现实时测量。拉坯参数设置不合理会影响铸坯产品质量甚至导致铸坯拉漏、拉断等生产事故出现,现阶段铸铁型材生产企业存在着铸坯温度与拉坯参数依靠人工经验进行判断、调整和生产数据依靠人工记录的问题,这
学位
随着城市化进程的推进和我国经济的快速发展机动车辆的数量不断增加,交通问题日益凸显,其中,交通拥堵已成为目前城市居民日常出行要面对的重要现实问题,使用智能交通管理的手段来维护交通秩序、提高路网的利用效率,在多数国已得到应用实践,智能交通系统(Intelligent Transportation System,ITS)是目前管理交通问题的重要手段,利用交通流量进行分析,并对未来的交通流状态作出判断和预
学位
适用性是生物系统的一个重要特性,它反映了生物系统对刺激作出快速反应以及在受到刺激后再次恢复到系统初始状态的能力。随着系统生物学的深入,研究以基因调控网络(Gene regulatory network,GRN)为代表的各类调控网络的适应性成为一个热门问题。调控网络适应性研究有助于人们深入认识各类调控网络乃至类似去中心化系统自发演化产生适应性机制。从控制科学的角度看,调控网络适应性是系统在特定输入下
学位
深度学习方法的出现为模式分类问题提供了良好的解决方案,前提是该问题必须能够给模型提供海量的训练数据。但是也存在很多实际问题,例如在计算机视觉中的某些研究领域标注样本的获取困难重重,而缺少样本的深度学习方法就可能发生过拟合等现象。因此如何在缺乏样本的情况下还能利用深度学习模型解决该问题,并达到理想的效果是非常关键的,即少样本问题的研究具有重要意义。本文以少样本学习中的图像分类问题为重点进行研究。具体
学位
随着风电大规模并网,为了保证电力系统的安全与稳定运行,风电机组常在限功率模式下运行。风电场有功功率的分配策略影响风电场输出功率的质量与风电机组的疲劳载荷。本课题围绕考虑疲劳载荷的风电场有功功率分配策略展开研究,主要完成了以下研究工作:(1)采用叶素-动量理论和弹簧阻尼系统建立传动轴的载荷模型,采用雨流计数法将随机的载荷统计为一系列不同幅值和均值的载荷循环,再使用S-N曲线和Miner线性累计损伤理
学位