基于特征融合和注意力的多模态人体行为识别研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:florrie79
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人体行为识别旨在针对数据中人体的行为和意图进行识别和理解,是计算机视觉领域一个重要且热门的研究课题,并在机器人技术、人机交互和智能监控等领域起着至关重要的作用。虽然行为识别算法在早期的研究中已经取得了极大的进步,但仍会受到光照改变、尺度变化、细粒度动作多等因素的影响。随着行为识别数据日趋丰富多样,利用多模态数据间的互补优势实现联合预测来提升识别性能逐渐成为许多研究者的重点研究方向。许多现有工作倾向于通过分数融合方式来融合最高层次特征,使得更深层次的信息交互受到限制。此外,在基于深度学习的行为识别技术研究中,许多研究者通过增加网络的深度来建模长期依赖关系,带来性能的提升的同时也伴随着高昂的计算代价和过拟合问题。因此,针对上述问题,本文通过提取多层次混合特征来实现更深层次交互,并借助于注意力机制对特征中关键信息进行增强,进而实现网络对长期依赖关系建模能力的提升。其中本文主要研究工作及成果如下:(1)本文提出了一个基于多深度层次特征融合增强网络(Multiple Depth-levels Features Fusion Enhanced Network,MDFFEN),以解决两类问题。其一,现有多数双流行为识别网络方法仅在最后层次融合两个支流的预测结果,难以充分利用双流互补特性。其二,特征中存在一些干扰模型训练的无关噪声信息。首先,为更高效地利用RGB及光流两模态数据间的互补特性,本文提出多深度层次特征融合(Multiple Depth-levels Features Fusion,MDFF)通过将提出的时空特征融合(Spatial-Temporal Features Fusion,STFF)模块嵌入至双流不同层次以捕获多层次的混合特征,之后进一步聚合以挖掘更深层次的混合特征。其次,本文设计了一个组级空间通道增强(Group-wise Spatial-Channel Enhance,GSE)模块,分别在特征的空间及通道域进行权重分配,进而提炼出更具判别性的加权强化特征。最终本文由加权分数融合联合双流及其融合支流的预测结果,进一步实现识别性能的优化。(2)本文提出了一个基于三元图卷积增强的双流网络(Two-Stream Ternary Graph Convolutional Enhanced Network,2S-TGCEN)用于解决骨架行为识别中骨架数据有效信息提取问题以及特征强化问题。首先,本文设计了一个三元自适应图卷积(Ternary Adaptive Graph Convolution,TAGC)模块,通过图卷积操作由骨架特征的空间域拓展至时间域及通道域进行上下文关系建模。此外,为增强骨架特征,本文设计了一个基于图的三元增强(Graph-based Ternary Enhance,GTE)模块,其以并联方式联合提出的基于图的空间注意力(Graph-based Spatial Attention,GSA)模块、时间注意力(Temporal Attention,TA)模块及通道注意力(Channel Attention,CA)模块,以进一步精炼判别性骨架特征。其中本文提出的GSA模块通过对骨架特征中的节点及其邻域间的依赖关系进行建模,进而挖掘出判别性局部空间信息。(3)本文提出了一个基于三元图卷积融合的多流网络(Multi-Stream Ternary Graph Convolutional Fusion Network,MS-TGCFN),用以解决现有多模态骨架行为识别中骨架数据信息交互及联合预测问题。首先,为提取更丰富的判别性信息,本文基于关节数据或骨骼数据构造包含帧间差异信息的运动数据和包含视角差异信息的视差数据。此外,为实现不同模态间更深层次的信息交互,本文设计了多流特征融合(Multi-Stream Features Fusion,MSFF)机制,通过将不同支流中不同层次特征视为顶点并通过三元自适应图卷积(Ternary Adaptive Graph Convolution,TAGC)模块来挖掘出不同层次的混合特征。最终通过联合基础流以及融合流的预测结果得到最终的分类结果。综上所述,本文基于特征融合以及有效注意力强化的行为识别技术进行深入研究,提出了三种行为识别网络:MDFFEN,2S-TGCEN以及MS-TGCFN,且在多个公开数据集上通过大量实验论证了本文所提算法的优良性能。
其他文献
专利文本记录了大量的科技成果信息,受到了人们的高度关注。随着互联网的快速发展,专利文本数量不断增多,如何从纷繁冗杂的专利文本中高效地抽取其中关键特征一直都是自然语言处理的基础研究问题。然而,现有的面向专利文本的特征抽取还未取得十分令人满意的效果,对专利文本特征抽取的准确度需进一步提高。针对以上问题,论文提出一种无监督的融入公共知识的TextRank专利关键词提取模型,该模型有效地利用了先验公共知识
随着我国汽车制造和智能交通领域的发展,汽车智能化水平逐年提升。在汽车价格平民化与道路条件标准化的背景下,汽车已成为人们工作和生活中的重要工具。然而,汽车的大量使用也产生了一系列的负面影响和安全隐患,例如上下班高峰严重的交通堵塞,频发的交通事故等。如何通过安全辅助驾驶系统预防和减少交通事故的发生成为了学界日益关注的核心焦点。其中,基于双目视觉的障碍距离检测和车道线检测是该领域的热点问题,本文设计开发
伴随着科技的进步与计算机视觉技术的飞速发展,基于深度学习的目标检测技术得到了越来越广泛的应用,在各个领域都展现出蓬勃生机。与此同时,也出现了越来越多样化的数据形式,这给目标检测任务带来了难点。可见光单模态数据在部分特殊情况下提供的信息不够充足,基于可见光单模态图像的目标检测任务可能会出现准确率下降的问题,然而越来越多样化的数据形式给这个问题带来了转机。使得可以通过对不同模态的图像数据进行融合的方式
问答系统在生活与工业中有着广泛的应用,比如智能客服、智能音箱等。但目前的问答系统大都是静态的,一旦训练并部署后,无法再进行知识更新,用户与问答系统的交互语料也没有得到充分利用。即使获得了交互预料,但由于深度神经网络的灾难性遗忘特性,直接使用获取的新交互语料数据训练模型,会导致模型在之前数据上的表现变差。针对以上问题,本文构建了持续学习问答系统框架,处理并存储用户交互信息,并提出了持续学习的关系抽取
PCB(Printed Circuit Board,印刷电路板)是电子产品的核心部件,广泛应用于现代社会的各类行业,市场需求量广大。PCB上元器件的缺陷检测是PCB生产的必经环节,而电子元件小型化、高集成化的趋势以及SMT(Surface Mounting Technology,表面贴装技术)的发展使得PCB上贴装的元件密度更大尺寸更小,传统人工检查的方式已无法满足工业上对于检测精度和速度的要求。
随着中国影响力的扩大和中华文化的传播,全球各地出现“汉语热”的风潮,越来越多的国际友人开始学习汉语。其中,来华留学生对于汉语学习有着必然需求,语言是交流的基础,而在实际生活中,来华留学生存在因语言不通、交流障碍而导致的留学生活体验差等问题。留学生承担着传播中华文化,扩大中国影响力的作用,因此,留学生汉语学习体验需要设计师的深入研究和实践。在本课题以情境认知理论为理论基础,首先对情境认知理论和用户体
不同的线条样式能传递不同的情感,探究线条及其衍生形式的情感表达模型能够揭示影响情感表达的根本因素,发展更多情感表示形式,并促进情感表达软件的开发与人工智能对不同表达形式的情感识别。本文的工作分为以下四个方面:1.探究线条不同样式与情感之间的映射关系。为了探究不同样式线条的情感表达,编写程序创建了87种样式的静态水平线条,采用27个情感效价词汇与2个情感唤醒度词汇,招募测试者进行线上测试,为每种样式
视频监控是“天网”系统的重要组成部分,也是近年来治安防护水平提高的重要推动力之一。随着视频监控设备的普及率逐年上升,监控系统智能化的需求也日益提升。目前,国内大多数的视频监控系统都需要人工值守,安排监控人员24小时轮班来实现监管。通常,每个监管人员需要同时监控多个显示屏,存在效率低、抗干扰能力差、容易受监管人员主观意识影响等问题。随着科研人员对图像处理、视频分析、行为识别等技术的研究越发深入,智能
随着互联网的高速发展,很多电子商务平台逐渐兴起并提高了大众生活质量,但随着数据规模的爆炸式增长,正在使用推荐系统的互联网平台(如阿里巴巴、Paper Weekly等)面临着严重的信息过载问题,无法针对用户特点做有效的个性化推荐。由于传统推荐算法的模型表达能力不够强,而概率图模型同时具有概率论和图论的优势,故可使用概率图模型对推荐问题中各变量之间的依赖关系提供解释性更强的建模,但很多基于概率图模型的
随着社会的飞速发展,大型集会和游行活动的增多,活动中频繁的践踏事件造成大量人员伤亡,因此人群计数的研究成为近几年来计算机视觉领域的主要研究方向之一。本文通过深入分析卷积神经网络中的优势、充分考虑特征层内部之间的联系以及从分群分布随机的角度出发,提出以下三种不同的人群计数网络结构模型。(1)提出基于特征自学习多尺度残差生成对抗人群计数算法(Generative Adversarial Network