【摘 要】
:
目标检测一直是计算机视觉里的重要研究方向之一,受到众多学者的密切关注,其目的是判定输入图片中是否含有目标类别,并用边界框将目标包围起来。随着视频数据的快速增长,视频目标检测研究得以快速发展。视频目标检测将视频看作连续的图片帧,在每一帧上完成目标检测任务。视频目标检测在自动驾驶、视频监控、智慧城市等应用领域发挥着不可或缺的作用。然而,视频目标检测仍面临许多问题。视频中不可避免的运动模糊、怪异姿势和视
论文部分内容阅读
目标检测一直是计算机视觉里的重要研究方向之一,受到众多学者的密切关注,其目的是判定输入图片中是否含有目标类别,并用边界框将目标包围起来。随着视频数据的快速增长,视频目标检测研究得以快速发展。视频目标检测将视频看作连续的图片帧,在每一帧上完成目标检测任务。视频目标检测在自动驾驶、视频监控、智慧城市等应用领域发挥着不可或缺的作用。然而,视频目标检测仍面临许多问题。视频中不可避免的运动模糊、怪异姿势和视频失焦等问题,会导致目标检测器检测精度下降。针对视频目标检测中存在的问题,本文基于深度强化学习思想并利用视频中的时序信息,提出了一个基于深度强化学习与追踪算法的视频目标检测混合模型。该模型包括基于深度强化学习的目标检测算法(Object Detection Algorithm based on Deep Reinforcement Learning,DRL-ODA)与基于检测与追踪的边界框融合算法(Integrated Detection and Tracking Bounding Box Algorithm,IDTBBA)两个模块,旨在解决候选边界框冗余与检测精度下降等问题。论文的研究工作主要包括以下两方面。首先,本文提出一个基于深度强化学习的目标检测算法DRL-ODA。该算法旨在提升静态图像目标检测精度。传统的目标检测算法多依赖大量候选框,而冗余的候选框会带来大量计算,为了减少候选框数量,DRL-ODA引入一个顺序搜索网络来生成候选区域。顺序搜索网络定义一个智能体,在输入图片的特征图上进行自顶向下的顺序搜索,智能体根据初始候选区域采取相应的动作,选择新的搜索中心得到新的候选区域;重复上述过程,直到智能体有足够信心确定当前区域为最佳候选区域。每一搜索步骤完成时,候选区域会被送入之后的检测网络,对于每个类别分别生成回归向量,反馈给智能体。随着搜索的进行,图像的上下文信息得到了整合。在MOT 2015数据集上的实验结果表明,此方法不仅可以减少生成的边界框数量,还可提升检测的准确率。其次,本文在DRL-ODA的基础上,提出了一个基于追踪与检测的边界框融合算法IDTBBA,该算法属于边界框后处理的方法,旨在利用视频时序信息进一步提升检测精度。与单张图片相比,视频数据拥有充分的时序信息,利用追踪算法获取视频目标运动轨迹,并将其整合到检测过程中来,能够充分利用目标的运动信息,让检测任务从追踪任务中获益。IDTBBA将顺序搜索网络得到的候选框与追踪算法得到的候选框合并为一个集合,并进行重打分操作,赋予候选框不同的置信度得分,并在此集合上进行非极大值抑制操作。在MOT 2015数据集上的实验结果显示,相较于其它未使用融合方法的目标检测算法,IDTBBA能够有效提升检测的准确率,验证了该边界框融合算法的有效性。
其他文献
最近几年,神经网络机器翻译的研究十分火热,经过几年的发展,其性能就大大超过统计机器翻译,在通用领域特别是某些特定领域,神经网络机器翻译已有许多应用场景。基于翻译记忆的神经网络机器翻译研究也取得了一定的成果,且还有不少提升空间,因此,研究如何结合神经网络机器翻译和翻译记忆,使我们的机器翻译吸收翻译记忆的优势,这对于提升机器翻译的翻译质量,具有重要的理论意义。借助于翻译记忆,这对提高机器翻译的线上服务
数字媒体技术的发展深刻改变了媒介与城市之间的关系。城市作为社会发展的动力和中心,一直为传播界所探讨的话题。随着媒介技术的发展,高流动性、即时并渗入城市空间的媒体集合,已经成为一种独特的感知城市空间的方式。20世纪70年代中期,电子屏幕首次出现在城市街道,时至今日,城市户外大屏已经成为一种屡见不鲜的城市景观。因此,本文将围绕城市大屏幕与城市空间,具体探讨城市大屏幕如何成为形塑城市的关键节点,并通过这
二十世纪以来,随着社会的发展、科学技术的进步,图像迅速充斥着我们生活的各个角落,使得我们进入了图像时代。摄影技术的进步削弱了绘画的记录功能,图像与绘画的相互融合成为这个时代发展的必然趋势。自油画传入中国,叙事作为油画创作的传统,一直占据着油画发展的重要位置。而随着时代语境的转变,这种传统的叙事形式已经慢慢的卸下了主角光环,艺术不再单纯的为政治、宗教、历史服务,转而更加丰富多元。出现了微观化、个人化
命名实体识别(Named Entity Recognition,NER)的主要任务是识别出文本中人名、地名和机构名等专有名词,作为自然语言处理(Natural Language Processing,NLP)领域的一个分支以及关键技术,已广泛应用于信息提取、情感分析、语句分析等领域中。随着互联网行业的快速发展,用户在网上的社交和娱乐会产生大量文本,为了挖掘文本内的有效信息,命名实体识别技术成为各领
近年来,随着信息时代中互联网的迅速发展,软件在人类社会生活中的应用越来越普遍,移动支付、物联网、云计算、AI技术的普及,都依赖于软件为载体,我们正在步入智能软件的社会。与此同时,软件规模在急剧的扩大,软件复杂性不断提升,如何保障软件的质量,对软件测试技术提出了新的要求。其中,由于软件版本的更新更加频繁,软件工程师通过执行回归测试来确保软件系统的质量,这意味着整个软件生命周期中需要多次执行回归测试。
黄栌(Cotinus coggygria)是一种优良的水土保持与园林美化树种,开展黄栌造林技术研究具有广阔的发展前景。种子繁殖是黄栌的主要繁殖方式之一,但因其种子具有坚硬且不透水的木质种皮和休眠胚,阻碍了水分的渗透,故而自然条件下发芽能力较低。为提升黄栌种子的发芽率,培育优质黄栌苗,本文以巫山黄栌种子为实验材料,采用不同沸水处理方式(室温纯水、自然冷却、立即冷却)、98%浓硫酸(H2SO4,比重1
西南地区露地蔬菜生产氮肥用量大和养分投入不合理等问题突出,加上区域性高温多雨和土壤风化淋溶严重等因素,导致蔬菜系统氮肥损失严重和环境代价高。因此,本研究采用田间试验和生命周期评价(LCA)相结合的方法,一方面,定量化评价不同减氮配施硝化抑制剂(DMPSA)氮肥产品对西南地区大白菜和辣椒生长发育以及农学、环境和经济效应的影响。另一方面,综合评价以减氮配施DMPSA氮肥产品为核心的土壤-作物综合管理理
在社交网络不断变化过程中,从微观变化层面上观察,各种信息在个体之间相互传递和改变,从而个体之间关系会根据接收到的不同信息发生不同的变化,这种关系在演变过程中可能增强或破裂;从宏观变化层面上观察,由于网络中个体的非线性相互作用,网络会形成一定的结构和功能。因此从两个方面剖析网络是非常有必要的。目前研究者大多关注单一类型网络的剖析,或者分析某一网络的特征。对网络这些特性分析固然重要,但是网络的特性都是
分形凝聚是自然界中常见的现象,如雪花的形成,晶体薄膜的生长,土壤粒子的凝聚等。分形分散也是比较常见的现象,例如水流的冲刷,土壤团簇的破碎等。团簇的凝聚与分散属于非线性过程,在随机过程中表现为自组织现象和自相似性,这些特征引起了学者一系列的思考。如团簇凝聚和分散的过程,外界环境对凝聚与分散过程的影响等,对于这些问题,学者们从未停止过探索。在传统实验方法中,学者们利用仪器进行研究,但在很多环境下传统实