基于多模态特征和注意力机制的行为识别

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:donglaoshi_imnu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
行为识别是视频分析领域的重要研究课题,在视频监控、医疗辅助、人机交互等场景中应用广泛,其目的是借助计算机视觉技术自动分析和识别视频中的人体行为,并给出分类标签。然而,由于视频内容的复杂性和行为本身的多样性,使行为识别面临着巨大的挑战。现有的行为识别方法,在分析和识别视频中的人体行为的过程中,仍然受到复杂场景信息和背景噪声的干扰。当前的多数方法局限于从外观和光流中学习行为模式,使得模型在分析理解复杂行为时存在一定局限性。对此,本文通过分析行为的有效特征,并针对视频行为本身的特点和当前研究工作的不足,从抑制冗余信息干扰的角度出发,在3D卷积神经网络中引入空间注意力机制,研究了融合显著性增强的特征的行为识别;从有效利用多种特征的互补性和差异性的角度出发,研究了基于多模态特征的行为识别。主要工作如下:(1)针对行为分析容易受到冗余背景信息干扰,卷积网络缺少对行为关键特征进行筛选和对干扰进行抑制的有效手段的问题,本文提出了基于注意力机制的双流网络模型。该模型首先通过3D卷积神经网络构建行为的双流特征表达,然后利用空间注意力机制对卷积特征重新计算关注度权重,从而筛选出行为的有效特征,以此来抑制干扰信息,最后对显著性增强的双流特征进行融合表达,提高了行为识别的效率和准确率。(2)针对当前行为识别方法局限于从外观和光流中学习行为模式,对复杂行为的分析识别存在不足的问题,本文提出了基于多模态特征的行为识别模型,在外观和光流的基础上引入人体姿态信息,并利用GCN-LSTM网络对姿态序列的空间结构和时域共现关系进行学习推理。通过对多模态特征的联合学习,提高了模型对复杂行为的识别能力。
其他文献
食品中添加食用色素来吸引消费者已经成为了一种常用的手段,但生产者往往基于利润或其他原因对食用色素的使用量控制不当。在本项工作中,我们以日落黄为研究对象,基于电化学检测,成功制备了一种基于电解质溶液栅控石墨烯场效应晶体管(SGGT)的高灵敏度日落黄传感器,可以用来检测饮料中日落黄的浓度。日落黄传感器的检测机理主要是利用日落黄分子可以在栅极附近发生一个单电子的氧化还原反应,造成等效栅极电压的变化,进而
光学成像系统对处在焦深范围内的物体成像清晰,超出焦深范围的部分,会产生成像模糊现象。在显微光学成像系统中,由于成像物镜的焦深随着光学倍率的增大而减小,导致倍率越大的成像系统,只能获得更小景深的清晰像,如Mitutoyo M Plan Apo2X显微物镜的焦深只有±91μm,20X的焦深只有±1.6μm。因此,研究大景深成像方法具有重要的应用价值。叠焦合成扩展景深是显微成像中一种获得大景深图像的有效
随着国内经济的高速发展,越来越多的国民拥有汽车,但是车位的供需矛盾不断凸显。相比以前的停车库,立体停车库因停车使用率高而且智能等很多优势,立体停车库将取代传统停车库。立体停车库作为高大空间建筑,其内部结构极为复杂,运行机制较为繁琐,一旦发生火灾,车辆无法及时撤离,很容易造成二次爆炸等事故。因此对立体车库内部火灾的早期探测、精确定位以及自动灭火是非常必要的。立体停车库内部结构极为复杂,本文针对立体车
随着网络和计算机视觉的发展,各式各样的媒体和应用出现在人们生活当中,随之带来的网络和信息安全问题,受到了广泛关注。人脸识别技术,以其非侵入性的特点,成为人工智能领域备受关注的技术之一,在视频监控、人机交互和安全系统等实际应用中具有重要意义。现阶段的正面人脸识别技术在精确度方面已经达到很高,但是在有部分遮挡时,算法识别精确度有待提高,且模型比较庞大。针对这些问题,本文改进了一种基于FaceNet的算
近年来,神经网络加速器与IoT设备相结合的AIoT设备被广泛应用到多个领域。但较小的晶体管尺寸和较低的供电都会提高AIoT处理器软错误发生的概率,从而导致神经网络加速器出现大量计算错误。在这种情况下,若直接将离线训练好的神经网络部署到加速器上,会导致相当大的预测精度损失。而传统的容错技术(如三重模块化冗余)会带来相当大的功耗和性能损失。因此,国内外学者通过研究神经网络自身的特点发现可以对神经网络进
增材制造技术是一种逐层堆积的新型制造方法,与传统减材制造相比具有工序简单、成型效率高等优势。在粉末床金属增材制造中,金属粉末的快速熔化和凝固会产生陡峭的温度梯度,在成型零件内部产生较大的残余应力,导致翘曲变形和裂纹等缺陷,最终影响零件的整体性能。扫描策略是影响成型零件质量的关键因素之一,在粉末床增材制造成型薄壁件中,用常规的扫描路径很难获得质量理想的成型零件,为了减少薄壁件成型过程中的残余应力并控
近年来,以神经网络为基础的深度学习技术成为当前研究的热点。然而,神经网络在性能提升的同时,其具有的复杂结构却制约了神经网络在终端应用场景的发展潜力。低比特DNN是神经网络发展的新分支,具有计算强度低与存储需求小等优点;低成本FPGA是实现DNN加速的主要硬件平台之一,具有灵活性高、开发周期短等优点。因此,低比特DNN与低成本FPGA为在边缘端实现高性能的DNN加速器提供了良好的解决方案。但是,在实
地球表面的平均气温这些年正变的越来越高,碳排放是重要推手,全球多个国家尤其是西方发达国家对此越来越重视。我国进入工业化以后,煤炭、电力等能源消耗量逐年增加,碳排放量也随之增加,在碳排放方面正面临着非常严峻的国际形势。水泥行业作为传统高耗能企业,碳排放量大,加之激烈的市场竞争,因此节能减排、建设能源管理系统对水泥企业来说是非常重要的课题。能源管理系统以水泥企业实际生产数据为基础,统一节能绩效衡量办法
机器视觉技术作为当前的研究热点,其在工业自动化生产的过程中得到越来越广泛的应用。在传统流水线模式下,机器人常常要完成对工件的抓取操作,而工件空间位置的获取与姿态计算的准确性是执行抓取操作的前提与关键。当抓取任务需要目标物空间位姿信息时,不同于单目视觉只能获取目标的二维信息,双目视觉具备获取目标三维信息的能力。提出一种基于双目立体视觉系统的箱体工件空间位姿检测方案,对箱体工件空间位姿检测过程中目标识
随着电影数量的不断增多,视频网站的电影数量也在不断地增加,但是视频网站常常会给用户推荐一些低质量或者用户不感兴趣的电影。如何提高推荐电影的质量以及与用户兴趣相关的电影成为了电影推荐的研究重点之一。虽然视频网站的电影推荐系统日益复杂化,相关的推荐算法也多种多样,但是以目前的推荐系统来说也难以满足要求。因此为了解决推荐电影的低质量问题和电影与用户兴趣相关性的问题,本论文展开了相关研究,主要包括以下内容