基于改进型Slow-Fast网络的大熊猫行为检测研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:caiyt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今计算机视觉领域,行为检测作为一个热门话题受到研究人员的广泛关注。相比于关于人的行为检测,大熊猫行为检测的相关工作略显不足。大熊猫作为我国特有动物,研究、分析其行为在促进相关学科发展,帮助大熊猫繁衍等方面仍具有一定意义。本文针对动物的行为检测问题,基于深度学习的方法展开研究。我们项目组前期收集了大熊猫行为视频,建立了一个大熊猫行为数据集(Panda Behavior Analysis,PBA),其中包括以大熊猫为目标的边界框以及4层行为标签组(每组分别含有9,9,8,5类行为标签)。在此过程中,采用了先通过Yolo v5网络辅助对原始视频样本快速标注大熊猫的边界框,再人工修正的方式,使标注耗费的时间大幅减少,为后续工作赢得更多时间。本文使用Yolo v5网络,对大熊猫的姿态层(即瞬时行为信息)进行检测,检测结果基本能达到事前期望值,证实使用Yolo v5检测大熊猫的瞬时行为是一种有效的思路。同时,针对有时间跨度的行为类别,本文也提出了一种基于卷积视觉transformer(Convolution Vision Transformer,Cv T)的改进型Slow-Fast网络的行为检测方法对大熊猫的行为进行识别,节省了人力资源。该网络利用了Slow-Fast网络中快慢通道的特点,将输入的大熊猫视频图像帧分为快(16FPS)慢(2FPS)两个通道,并分别在两个通道通过3D卷积层提取特征,再应用多头自注意力机制来计算输入的视频图像帧中的大熊猫行为分类概率。通过这种方法所得到的平均精度均值(mean average precision,m AP)为46.4%,达到了Slow-Fast网络在Kinetics-400数据集上的精度水平(m AP 42.1%)。证明本实验所提出的基于Cv T结构的改进型Slow-Fast网络在大熊猫行为识别上仍具有一定效果。
其他文献
合成孔径雷达(Synthetic Aperture Radar,SAR)具有全天时、全天候对地海面目标二维高分辨成像的优势,在民用、军用领域有着广泛的应用场景。但是,随着雷达侦收技术的发展,特别是基于数字射频存储器(DRFM)系统的有源转发式干扰方式的出现,导致获取的雷达图像出现虚假干扰目标,给SAR稳健成像侦察任务带来了严峻的挑战。机载多通道SAR技术采用多个接收通道获取回波,相比于单接收通道,
学位
背景:麻醉诱导过程低血压(PIH)是指麻醉诱导后的最初20分钟内,或从麻醉诱导到手术开始期间发生的动脉低血压。PIH发生率较高,并与患者的不良预后相关。识别PIH的高危患者,对医护人员采取相应预防措施及制定干预预案具有重要意义。因此,本研究旨在构建全麻手术患者PIH预测模型并验证模型的效能。方法:本研究属于横断面、观察性研究。纳入的研究对象为2020年11月至2021年1月在中国西南地区一家三级甲
学位
微波光子滤波器是通信、成像、传感及雷达等国防和民用领域中的重要器件。传统滤波器因工作频段窄、传输距离短、损耗大等难以突破的技术瓶颈,无法实现通带灵活重构。微波光子滤波器利用电光调制器,将微波信号加载到光域进行传输和处理,再转化为电信号输出,具有抗电磁干扰、长距离、低相噪、低成本的优势,是高频信号传输处理中极具潜力的研究方向之一。受激布里渊散射效应产生的增益谱与损耗谱具有窄带宽、高增益、中心频率可调
学位
碳膜是一类很有发展和应用前景的材料,它是以碳原子为主形成的薄膜,有着卓越的物理化学性能,如高热导率、优秀的光学性能等。因此,碳膜被广泛应用于散热材料、机械工具和器件表面保护层等。自从20世纪以来,伴随着智能手机、智能手环以及各种微处理器的发展,人们开始在基片上集成越来越多的电子器件,以求高集成度来实现器件性能的提升和携带的方便性。但高集成度造成的发热是困扰和限制集成技术发展的主要问题之一。因此,科
学位
图像作为人类视觉系统的基础,在人类认识世界和人类本身的过程中具有重要作用。近些年,计算机技术与数字图像处理技术发展迅速,关于图像处理和计算机视觉领域的算法推陈致新。图像中像素的分辨率表示图像中所包含信息量的程度,高分辨率的图像通常包含更多的信息量,特别是高频细节信息。图像超分辨技术是采用计算机软件的方法提升图像分辨率的技术,其能够实现以大倍数放大图像。既保持了图像原有的清晰度,又能极大的增加图像细
学位
图像编辑和转换是近年来计算机视觉领域中的热门研究方向。本文所讨论的服饰图像属性修改算法是图像编辑和转换方法在特定领域(服饰的产品图和着装图)的应用。近年来深度学习算法和生成对抗网络得到了快速发展,越来越多的图像编辑任务都开始利用生成对抗网络(GAN)完成。在生成对抗网络中,生成器接收要编辑的原图像以及图像编辑用到的条件信息作为输入,根据条件信息的指导完成对原图像提取特征再上采样得到编辑后图像的过程
学位
光学相干层析成像技术(Optical Coherence Tomography,OCT)是一种新型的光学成像技术,具有非侵入、无损且成像速度快等优点。扫频OCT作为最新一代的OCT系统,发展十分迅速,在生物学、医学成像等领域应用广泛,各项性能均优于其他种类的OCT系统。扫频激光器是扫频OCT系统的核心器件,其性能参数对扫频OCT系统的性能有着直接影响。目前,短腔扫频激光器是最受欢迎的扫频激光方案之
学位
队列操练是培养良好身姿和严格纪律性的一种常见且有效的方式。但是,队列操练一直以来都是靠人工观察进行评判与打分,具有较大的主观性影响,并且,依靠人工对队列操练进行评分往往需要到现场进行观察。目前,也没有一套标准化的、智能化的队列操练评分系统,所以研发一套基于在线视频流的队列操练远程自动评分系统有着切实的需求。而深度学习算法在计算机视觉领域的巨大进步,为研发新的智能识别解决方案提供了可能。本文利用最新
学位
<正>党的十八大以来,以习近平同志为核心的党中央统筹中华民族伟大复兴战略全局和世界百年未有之大变局,坚持统筹发展和安全,坚持发展和安全并重,带领全党全国各族人民攻坚克难、团结奋斗,努力实现高质量发展和高水平安全的良性互动,推动中华民族伟大复兴进入不可逆转的历史进程。在党的二十大报告中,习近平总书记再次强调,要守住不发生系统性风险底线,
期刊
焊接是利用高温或高压将分离的金属或热塑性材料连接成一个整体的工艺及技术。焊口作为焊接技术工件中的关键部位,常常存在着一些缺陷。对于这些带有缺陷的不同类型焊口进行正确定位和识别意义重大。传统的、通过人工手段对焊口进行定位和识别的方式存在准确率不足、效率低等问题。针对此问题,本文基于深度学习中的目标检测算法进行研究,主要完成了以下几方面工作:一、构建了焊口图像数据集Xweld。目前公开的焊口图像数据集
学位