基于目标表征增强的视频跟踪方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:tianshanfeiren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
海量视频图像下的高性能视频目标跟踪技术已广泛应用于安防监控、自动驾驶、人机交互以及精确制导等民用和军事领域,是当前计算机视觉和人工智能领域的研究重点。理想的视频目标跟踪系统应当具备精准捕获和长时稳定跟踪目标的能力。然而,受复杂背景和高动态场景变化的影响,跟踪性能往往具有较大的局限性。跟踪中,如何更好地建模感兴趣目标,增强其表征能力,并准确估计其位置是亟需解决的关键问题,具有重要的理论和实际意义。早期建模方法通常利用颜色、梯度、关键点等手动特征描述目标的时空域变化,存在表征能力不足与适应能力较差等问题,容易在复杂场景中导致跟踪不稳定等情况。近年来,随着深度神经网络技术的发展,从大规模数据中自动学习具有更强判别能力的特征和结构成为了可能,为解决跟踪建模问题提供了新的思路和途径。本文以深度神经网络理论为基础,重点针对视频目标跟踪中存在的相关关键问题展开研究,提出了相应的解决方法。论文取得的主要研究成果如下:1.研究了视频目标跟踪中空时表征能力不足的问题。相比于传统特征,深度特征可为跟踪模型提供更为鲁棒的表征,但由于特征选择和利用方式的限制,导致空间域和时间域建模时难以有效捕捉目标的变化。为此,本文提出一种基于分层空时上下文学习网络的跟踪算法。该算法首先利用多源卷积层的细粒度和语义表征信息,辅助构建分层空间上下文先验模型,然后通过映射神经网络学习卷积特征和训练置信度图之间的动态变换关系,最后利用训练置信度指数实现跟踪网络的自适应更新,增强了空间域和时间域建模能力。实验结果表明,分层空时上下文学习网络有效提升了算法在复杂未知跟踪场景中的泛化能力,提高了跟踪性能。2.研究了视频目标跟踪中深度特征编码能力不足的问题。卷积神经网络一般在跟踪模型中将标量特征当作基本的特征单元,忽略了特征的聚合效应,导致单一的编码维度难以获得足够的局部区域表征信息,并且使得标量分类单元学习到的特征转移关系极为有限。为此,本文提出一种基于双注意力胶囊网络的跟踪算法。该算法利用胶囊聚合网络将位置感知的标量化深度卷积特征聚合为向量化的胶囊特征,同时通过胶囊组注意力机制和胶囊惩罚注意力机制,实现了胶囊实体内外表征的区分性学习,有效提高了网络基本单元的编码能力。实验结果表明,双注意力胶囊网络较为鲁棒,相比于现有的跟踪网络,能够更好的处理空域刚性目标的跟踪问题。此外,该网络同样可用于解决目标检测、行为识别和图像分割等任务中的特征编码问题。3.研究了视频目标跟踪中长时建模能力不足的问题。在长时跟踪任务中,由于迁移学习模型对类内目标干扰不敏感,容易导致跟踪漂移,而孪生模型可针对任意类型的目标,具有捕获目标长期变化的能力。为此,本文提出一种基于动态加权预测网络的跟踪算法。该算法通过动态加权网络衡量互相关响应图中不同预测偏好的差异,利用残差动态映射来辅助标准动态加权,并以加权网络为基础,引入一种考虑全局视野的在线金字塔重检测机制,缓解了目标持续跟踪中的漂移问题。实验结果表明,动态加权预测网络能够提高算法在复杂长时场景中的跟踪精度和稳定性。4.研究了视频目标跟踪中网络结构冗余的问题。目前大多数跟踪算法都利用较为复杂的大型网络构建特征模型,导致硬件资源耗费较多,跟踪效率降低,难以部署在移动端。为此,本文提出一种基于轻量多级融合网络的跟踪算法。该算法首先通过降低网络参数量、浮点运算量和内存访问开销构建轻量模型,然后通过通道乱序和神经架构搜索构建多级融合模型,最后通过扩展已构建的模型,得到高效的融合式轻量跟踪网络。实验结果表明,轻量多级融合网络能够较好地平衡网络复杂度和跟踪性能,为跟踪网络在移动端小型化系统中的应用提供了技术途径。本文的研究内容和创新方法为解决复杂环境下视频目标的高性能跟踪提供了理论和方法支撑,也为实现检测-跟踪-识别一体化提供了良好的技术基础。
其他文献
Web 2.0时代的到来,在线社交网络应用迅速普及,大量用户涌入在线社交网络平台发表见解、分享生活,产生了大量用户生成内容。这些数据对于提高搜索服务的质量与体验具有重要意义。在此背景下,旨在利用社交网络数据优化搜索结果,提升搜索服务用户满意度的社会化搜索引擎应运而生。然而,已有社会化搜索引擎研究仍然存在4个问题:(1)检索资源大都集中于特定的在线社交网络平台,导致信息检索查全率不高;(2)被动响应
大数据时代的到来不仅给数据的处理速度提出了更高的要求,也让价值信息的安全存储成为了重要挑战。忆阻器有着简单的器件结构、简洁的制备工艺、较低的功耗以及较高的集成度,对于实现海量数据存储、克服冯·诺依曼瓶颈、构建存算一体式计算模式具有重要意义。与此同时,物理瞬态形式的电子器件能够在外界的刺激触发下实现物理形态和器件功能的部分或全部消失,其在绿色电子,可植入医疗以及安全电子等领域具有重大的应用价值。因此
网络构成了复杂系统的基础,从脑网络到计算机通信网络,从运输基础设施到在线社会系统,从生物系统到金融市场;在现实世界中,所遇到的大多数系统都是复杂的系统。这些系统具有复杂的拓扑特征,这意味着它们在元素之间的连接拓扑结构既不限于对称排列,也不是可预测的(纯随机的)。学者将这些系统称为复杂的网络。复杂的网络代表着无数的现实世界系统,其中部分系统是人造的,一个较为常见的例子即为Internet和语义Web
电离层化学物质释放是电离层理论研究的重要组成部分,是人工调控和应用电离层空间环境的有效手段之一。本文基于电离层不稳定性理论,研究了电离层化学物质释放的不稳定性效应,并有针对性的讨论了影响电离层不稳定性发展的关键因素。利用线性增长率理论可以从原理上分析化学物质释放的不稳定性触发效应,但线性理论对应不稳定性发展的早期阶段,只能部分判断电离层不规则体的形成概率。因此,需要能够反映不稳定性线性和非线性阶段
人类社会发展史表明,每一次依人类智慧和文明的进步而发生的科学技术革命,都在不同程度上推动人的存在方式变化与人类社会发展。进入二十一世纪后,以人工智能、大数据、云计算、区块链和新一代通信网络信息技术为代表的新技术革命的融合和发展,推动人类社会进入了一个被称为“工业4.0”的第四次工业革命时期,我们正处于这一历史阶段。“现实”就是人与人类的当下的存在,就是我们的本质在当下的显现。从科学技术革命对于人类
近年来,随着电子设备功能和性能的不断提升,电子设备的体积越来越小,装配的元器件数量越来越多,器件运行功率越来越大,导致热流密度和安装密度急速攀升。因此,对电子设备的热控制能力提出了越来越高的要求。微通道换热以其结构紧凑、换热效率高、工程实现性好等诸多优点,作为一种高效的换热形式被海内外研究者们广泛关注。微通道换热结构形式多样不胜枚举,以蛇形微通道换热结构和带有翅片的微通道换热结构散热效果最理想。本
逆合成孔径雷达(Inverse Synthetic Aperture Radar,ISAR)成像技术凭借其全天时、全天候以及高分辨的独特优势,在军事和民事领域都扮演着重要的角色。ISAR通过对空间、空中和海洋目标进行高分辨成像,为非合作目标的分类和识别提供了有力的技术支撑。为了满足越来越丰富的应用需求,ISAR正朝着多功能、多维度和精细化的方向发展。工作模式和系统结构的多样化,以及目标运动的复杂化
汽车数量的迅速增加导致全球能源消耗和温室气体排放量不断增大,如何减少能源消耗和碳排放量成为汽车工业面临的一个重要挑战。诸多学者正致力于研究的以减小车辆能耗为目的的新技术主要专注于对车辆本身的改进和控制,而把道路坡度作为影响车辆能耗的外部因素。不同于现存的许多方法,本文从优化道路坡度的角度研究降低车辆能源消耗的方法和技术。本论文主要贡献如下:本文提出了在车辆按照既定速度曲线行驶的条件下减少其总能耗的
人脸表情识别技术是一个涉及到心理学、生物学、计算机学等等多门学科的交叉产物,由于人脸表情识别研究具有极高的应用价值和研究意义,近十年来,一直是人工智能领域的一个研究热点。得益于硬件技术的提高和深度学习技术的发展,人脸表情识别研究对象已经从实验室控制表情样本转移到了自然场景表情图像,同时也促进了人脸表情识别相关应用市场的蓬勃发展。反过来讲,迅猛发展的应用市场又对人脸表情识别研究提出了更高的要求,例如
利用机器可读的人类知识来赋予计算机权力一直是人工智能的长期目标。通过知识收集的进步,这一目标取得了巨大进展。在过去几十年中,自动知识库构建引起研究团体的广泛关注,并在以实体为中心查询应答方面取得重大进展。知识图谱因存储有关常见实体的事实,自然成为语义搜索核心。如今,公开可用的知识图提供数百万个实体(例如人,组织,位置以及诸如书籍,音乐等创意作品)以及数十亿个有关实体的陈述(例如谁在哪里学习,哪个国