深度学习驱动的视频结构化技术研究与实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:daguofan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国平安城市、雪亮工程、社会综合治理体系的深入发展,目前各个城市都建设了大量的摄像头,这些摄像头所产生的海量监控视频存在着数据冗余、组织混乱等问题,而视频结构化技术可以对海量视频进行结构化组织和管理,可有效支撑当前智能监控信息化建设的需求。在视频结构化技术中,行人重识别和行人属性识别是两个重要的研究方向。当视频能够捕获到目标图像时,需要采用行人重识别通过图像特征对目标进行识别;当视频无法捕获到目标图像时,需要采用行人属性识别进一步考虑行人的高级语义特征对目标进行识别。然而当前的视频结构化技术还面临三个主要问题:第一,当视频能够捕获到目标图像时,现有行人重识别技术在行人快速变换位置时无法联动多个摄像头对同一目标进行精准的定位和追踪,导致对同一个行人的识别率较低;第二,当视频无法捕获到目标图像时,只能通过目标人员属性去寻找,而现有的行人属性识别技术没有充分利用人体固有结构之间的关系,从多角度预测行人属性,导致属性识别错误率较高。第三,目前视频结构化技术大多用法单一,没有交叉使用行人重识别和行人属性识别技术。针对上述问题,本文首先提出了一种基于人体解析的行人重识别算法MGMHP-PR(MaskGuided Method based on Human Parsing for Person Re-identification),进而考虑到人体固有结构,提出了一种基于关键点图卷积的行人属性识别算KGMGCN-PAR(Keypoint-Guided Method based on Graph Convolutional Network for Pedestrian Attribute Recognition)。在此基础上,考虑到现实情况的复杂性,为了进一步提高算法的普适性以及目标识别与定位的准确度,本文将改进后的两种算法相融合,设计了一个深度学习驱动的视频结构化原型系统,该系统在面对不同情况时可以自主决策不同的解决方案。在实验部分,对文中所提算法进行了验证,并与传统基准算法进行了对比分析。本文的主要研究工作如下:(1)针对行人快速移动无法进行精准定位导致识别率较低的问题,提出一种基于人体解析的行人重识别算法MGMHP-PR。首先,将改进的残差网络、多尺度特征融合、Focal Loss引入U-Net,以生成不同部位的人体掩码图;随后利用人体掩码图并结合注意力机制计算特征图权重矩阵,获得像素级局部特征;接着为了综合考虑不同部位的局部特征,本文提出一种基于局部特征的三元组损失;最后利用孪生网络联合计算行人实例和局部特征的损失。(2)针对现有视频结构化技术无法充分利用人体固有结构之间的关系导致属性识别错误率较高的问题,提出一种基于关键点图卷积的行人属性识别算法KGMGCN-PAR。首先,利用HRNet和残差网络提取行人的关键点局部特征;随后利用人体的固有结构作为先验知识初始化邻接矩阵,并自适应地学习邻接矩阵,对关键点局部特征实行图卷积;接着依据人体结构将局部特征划分为不同的部分进行属性识别;最后使用统一内容标签(uniform content label,UCL)实现视频结构化标引。(3)针对现有视频结构化技术用法单一的问题,将两种算法进行融合,实现了深度学习驱动的视频结构化原型系统,该系统可以智能化选择不同的算法对目标进行结构化组织和管理。并通过相关实验对本文所提MGMHP-PR算法和KGMGCN-PAR算法进行了验证。实验结果表明MGMHP-PR算法相较于其他常用的行人重识别算法具有更高的识别精度,KGMGCN-PAR算法相较于传统的行人属性识别算法能够实现对目标人员属性的准确识别。
其他文献
医患纠纷文书作为记录纠纷过程的宝贵资料,对后续的纠纷解决有着重要指导作用。在实际的纠纷调解过程中,如能根据具体的案情进行精准的类案推荐,则可以有效提升医患双方对责任和赔偿的认知,提高案件解决质量和效率。传统的类案推荐方案一般是通过专家确定类案的特征项及权重,将文书映射成固定维度的、稠密的特征向量,然后基于向量相似度计算来推荐类案。该方案非常依赖于专家对类案的判断和对类案特征的选择,而这不仅需要专业
随着移动互联网时代的到来,社交媒体在世界范围内逐渐风靡,其影响力也不断扩大。对于社交媒体语料的细粒度情感分析逐渐成为了学界新兴的研究热点之一。然而,社交媒体语料相较于传统的单文本在特征上有明显区别,一是由于社交媒体的非正式性,用户发表的文本内容可能存在大量的缩写、语病和错字等,二是社交媒体语料不再是单一的文本形式,往往伴随着图片。因此,本文基于社交媒体语料进行细粒度情感分析研究,不仅具有重要的学术
磁共振成像(MRI,Magnetic Resonance Imaging)是一种利用射频脉冲对磁场中的氢原子核进行激励,再利用感应线圈采集信号进行图像重建的方法。由于磁共振成像辐射小、对软组织有很好的分辨力,已经被广泛用于临床检查和疾病的诊断。对MRI图像进行准确的自动分割对临床诊断以及科学研究都有重要意义。近年来,深度学习技术在图像处理领域取得了非凡的成果,在医学图像的处理和分析中也得到了广泛的
计算机断层扫描(CT)是临床上最常用的肝脏肿瘤评估影像。由于CT检查实施快捷、无创伤性的特点,在临床诊断与复查中被广泛使用。医生手工对CT图像进行分析整理费时费力,因此在计算机辅助诊断领域对CT图像的自动分割研究是当前的研究热点。肝脏肿瘤由于在CT图像中像素值变化较大并且边缘模糊,自动分割的难度较大。随着深度学习的快速发展,基于全卷积网络框架的分割网络能够为医生提供像素级分类信息,精确定位各种器官
网络表示学习,又称网络嵌入,旨在将网络中的节点表示成低维稠密的实值向量。网络表示学习提供了一种高效的网络表示形式,学习到的表示向量可以灵活方便地运用到诸如节点分类、链接预测、社区发现等各种网络分析任务中。在现实生活中,网络中的节点往往还伴随着描述性的属性,这类网络称为属性网络。近些年基于深度学习的属性网络表示学习也逐渐引起了研究者们的关注。然而,社区结构信息和任务相关信息并没有被有效利用是大多数现
群智化软件的评审可以保证软件开发的进度与质量,因此实现群智化软件高效率高质量评审是一项重要的工作。目前大多数的群智化平台以手动方式分配评审者,这种方式不仅耗费大量时间,而且受限于个人的认知界限,评审者的选择范围变得很小,更重要的是某些评审者可能会被分配过多的评审任务,导致评审不及时、评审质量差等问题,进而影响软件开发质量与进度。为了解决上述问题,提出了一种软件评审者的混合推荐方法:首先基于评审者兴
在火电厂燃煤发电中,会产生氮氧化物等有害物质,这些污染物如得不到有效控制,将会对环境造成巨大威胁。所以本文以火电厂脱硝控制为研究对象,运用选择性催化还原技术(SCR)进行烟气脱硝处理。在SCR脱硝技术中喷氨量的控制最为关键,其控制效果的好坏直接影响着脱硝效率及生产成本。但由于现场干扰因素众多,采用传统的控制方式往往很难达到理想的喷氨效果。因此,面对越来越严格的环保政策,如何对NOx的排放采取更有效
学位
学位
学位