基于视觉的深度学习行为识别算法研究

来源 :北方工业大学 | 被引量 : 0次 | 上传用户:aifuweimin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,行为识别技术逐渐成为计算机视觉领域关注的重点。行为识别通过捕捉视频图像中的人物运动特征来识别目标运动类别。行为识别技术具有广阔的应用前景,如:智能驾驶,无人超市,智能交通等。传统的行为识别方法是在不同的应用场景中凭借大量的人工设计与先验经验来实现的。这些方法不具有通用性,应用场景存在一定局限性。随着深度学习算法的问世,图片分类,人脸识别,机器翻译等领域都获得了长足的进步。深度学习算法可以从大量数据集中自我学习到目标特征,避免了手工设计特征提取方法的繁琐步骤和经验性高的困难,并且可以应用于多个不同场景。随着数据集规模的增长,以及深度学习算法复杂度的提高,深度学习算法对硬件配置的要求越来越高。为了降低行为识别技术对计算机硬件设备的依赖,本文设计了一种高效的行为识别算法,在保持识别准确率不变的情况下,降低模型约1/3的计算量和2/5的参数量。主要研究如下:1.利用深度可分离卷积对行为识别网络进行改进,牺牲较小准确率,使模型计算量和参数量大幅度减少。标准卷积操作通常使用与输出通道数相同的卷积核来完成,在卷积滤波的同时,将特征图扩展到多通道中。而深度可分离卷积将卷积滤波和扩展维度这两个步骤分开实现:首先通过深度卷积实现卷积滤波操作;然后通过逐点卷积将特征图扩展到多通道中。深度可分离卷积虽然通过两次卷积来实现,但是所用卷积核大小远小于标准卷积,从而实现了计算量和参数量的大幅度减少。2.利用注意力机制对行为识别网络进行改进,融合注意力机制,以较小的计算消耗,换取明显的网络性能提升。本文将用于2D任务的CBAM模块扩充为3D结构,并嵌入到行为识别网络中。3D CBAM从空间维度和通道维度对提取的特征图权重进行重新分配,强化有用信息,抑制无用信息,从而提升网络的特征表现力。
其他文献
合理的交通信号控制与车辆路径诱导是缓解城市道路交通拥堵的重要手段,而交通信号控制配时方案与车辆路径诱导方案之间存在相互影响关系,如何将交通信号控制与路径诱导综合考虑,已成为国内外在智能交通领域的研究热点。在大型城市路网交通控制中,干线绿波控制由于具有可靠性好、实用性强等特点,已成为一种被采用较多的交通信号控制方法,而在路径诱导过程中,由于交通流在干线绿波带宽内运行的连续性,选择部分干线路径可能会缩
学位
【目的】探究不同林分的生物量及林下植被多样性差异,为营建亚热带人工林筛选适生的珍贵乡土阔叶树种。【方法】以四川农业大学崇州基地同质园试验中大叶樟Cinnamomum platyphyllum、油樟C. longepaniculatum、天竺桂C.japonicum、樟树C. camphora、桤木Alnus cremastogyne、香椿Toona sinensis、红椿T. ciliata等7个
随着人工智能和大数据技术的广泛应用,数字图片、视频凭借其生动形象、真实细腻等特点有效提升了读者的阅读体验。传统的文字阅读已经无法满足读者多样化、个性化的阅读需求,图书馆必须立足信息化时代背景探索构建图像阅读的新型模式,大力推进数字图像数据库建设,将珍贵的历史文献和图书资料以图片、视频的形式呈现出来,提升图书馆的服务水平。由刘晓辉编著、中国戏剧出版社于2018年出版的《现代图书馆图像数据资源建
期刊
师:上课,同学们好!生:老师好!师:请坐。这节课我们来学习贾平凹先生所写的《一棵小桃树》,你们刚才都读过了吧。好,老师问问。读这篇课文,你都读出了什么?有一点就说一点,好不好?生:我从这篇课文里读到了思乡、怀念和爱怜。师:从哪里可以看出来他对家乡的怀念?生:从他脱离家乡,去到城里上学,然后要轰轰烈烈地干一番事业。知道奶奶死了才回到家,但他又有点不舍,怀念起了奶奶。师:也就是说《一棵小桃树》里
期刊
随着智能电网与物联网等技术的发展,越来越多的智能电子电力器件应用在日常生产与生活中。传统的电压传感技术已不能满足智能化、小型化、与设备高度融合等新要求,因此,新型的电压传感技术成为了目前的研究热点。双端固定音叉谐振器能够把多种物理量转化为频率输出,不容易受到环境噪声的干扰,而且准数字输出可以简化接口电路,被广泛应用于设计谐振式加速度计、陀螺仪、力传感器等。本论文将压电陶瓷与双端固定音叉谐振器复合,
光学相机通信(Optical Camera Communication,OCC)作为可见光通信(Visible Light Communication,VLC)的分支,是一种利用光学图像传感器作为红外线(Infrared Radiation,IR)或可见光波段接收器的通信技术,因此这种技术也称为图像传感器通信。OCC技术因其具有频谱资源丰富、不受射频技术干扰、成本低廉以及安全性高等优点广泛应用于智
新一代视频编码国际标准——通用视频编码标准(Versatile Video Coding,VVC)已于2020年7月完成定稿,相比于高效视频编码标准(High Efficiency Video Coding,HEVC),VVC在其基础上增加了大量新技术。其中跨分量线性模型(Cross Component Linear Model,CCLM)预测技术的引入,利用分量间相关性大大提升了色度分量的预测效
储能系统的大力发展,正解决着风电和光伏等新能源迅速发展造成电网随机性、间歇性和可控性差方面的问题。传统的储能系统中多数采用两电平和三电平变换器,近年推出的更优良低压功率半导体器件驱使着变换器向着更多电平数发展。针对多电平变换器研究的最新进展中具有突出代表性的两个案例显示出的可靠性和成本问题,本文定位在变换器层面去试图解决,具有较大意义。针对可靠性方面问题研究,文中提出了一种三相七电平有源整流交错飞
数字时代的来临使得图像数据呈爆发增长的趋势,图像在日常生活中也扮演着重要角色。在医疗、金融等领域,工作者经常需要存储、转发和浏览一些含有敏感信息的图像。然而,在本地存储资源有限的条件下,这些图像的存储和安全管理对用户而言是一个巨大挑战。云计算技术的出现,使得作为的第三方云存储受到广泛欢迎。然而,作为第三方的云服务器是不完全可信的,用户上传的图像信息可能会泄露给第三方服务器,造成用户信息隐私的泄露。