基于深度学习的场景结构化描述方法研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户：FollowMyHeart88

【摘要】

：

【作者】

：

傅宁

【出处】

：

南京邮电大学

【发表日期】

：

2021年03期

【关键词】

：

场景结构化描述计算机视觉场景分类目标检测与识别对象空间关系

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

场景结构化描述技术是在人工智能以及大数据的背景下衍生出的一项重要技术,基于深度学习的场景结构化描述具有重要的应用研究价值。该技术是为了将视频场景中的关键信息自动化地以标签的形式结构化描述出来,使计算机能够理解视频内容并存储有意义的信息。目前,人们对于场景结构化描述的研究主要停留在自然语言处理的层面,通过视频的机器翻译来实现人与计算机之间的信息交互。但是由于视频的无结构化性,视频内容信息的复杂性,视频场景的不确定性等问题,要想实现场景结构化描述技术并非易事。本文从计算机视觉的角度出发,以视频场景、场景中结构化描述的对象、描述对象之间的属性关系为三个切入点,构建了结合场景分类、目标检测与识别、对象空间关系这三个方面组成的场景结构化描述方法,用以实现将视频中的无结构化信息以场景结构化描述技术表现出来。论文的具体研究工作分为三个部分:(1)提出了一种基于迁移学习和显著性区域提取的场景分类算法。首先建立用于场景分类的深度卷积神经网络模型,使用已经利用大型场景图片数据集训练过的网络模型进行参数迁移;将从视频中帧截取到的不同种类场景图片整合成新的小样本数据集,对用来训练的数据集进行图片预处理,采用滑动窗口来进行显著性区域提取;最后训练模型,最小化自定义的softmax分类器的损失函数,实现场景分类。实验结果表明,该算法可以有效应对训练样本不足导致的训练过拟合问题,并且对于场景构成因素较为单一、干扰因素少的环境取得不错了分类准确率;同时,在干扰情况较多的场景时,将分类准确率提高了约7%。(2)提出了一种基于轻量级网络的交通场景目标检测与识别算法。在实现场景分类的基础上,以交通场景作为主要的研究场景,并且为满足场景结构化描述需要,提出了多目标检测、实时性、轻量级网络的要求。首先,以YOLOv3算法网络模型为基础,通过替换主干网络、调整多尺度融合网络、设计新的损失函数,完成了YOLOv3-Mobile Net V2的轻量级网络模型的搭建;其次,确定交通场景中的描述对象,采集相关图片并做好标注工作,训练YOLOv3-Mobile Net V2网络模型,最小化损失函数,完成交通场景中目标的检测与识别。实验表明,该算法对交通场景中的描述对象可以针对性地识别;其次,在完成了轻量级网络模型的要求基础上,实现了多目标实时性检测与识别。(3)提出了一种基于对象空间关系的交通场景结构化描述方法。在场景分类和描述对象确定的基础上,通过研究描述对象之间的空间位置关系来完成交通场景结构化描述。首先,训练全卷积网络对视频图像中的对象作深度估计,提取出深度图,并利用深度图进行三维点云的转换,结合通过YOLOv3-Mobile Net V2算法检测出来对象区域相结合并优化,得到目标的三维定位;其次,通过空间坐标系与像素坐标系的转换,利用对象之间空间位置关系来进行场景结构化描述。在对空间位置关系的研究中,引入了逻辑描述的方法,以逻辑语言建立交通场景中的描述对象之间的空间位置关系,以空间位置关系来实现场景结构化描述。实验表明,以深度信息与YOLOv3-Mobile Net V2算法检测出的二维目标位置相结合的策略,可以定位出目标在三维空间的位置,对描述对象之间的空间位置定位提供了极大的便利。与此同时,可以通过描述对象之间的空间位置关系来对交通场景进行结构化描述。

其他文献

一类椭圆方程弱解的梯度估计

偏微分方程在数学、物理学、力学和工程技术等方面都有着广泛的应用。根据数学特征,偏微分方程主要分为三大类:椭圆型方程、抛物型方程和双曲型方程。在椭圆型和抛物型偏微分

学位

A-调和方程障碍问题弱解梯度估计

快速凝固+热挤压制备Al-10.7Zn-2.4Mg-0.9Cu合金的组织与性能研究

随着近年来全球气候持续变暖,环境危机和能源消耗成为目前人类面临的一大难题。车身的轻量化有利于环保,而铝合金材料可以大大减轻车身结构件的重量,实现降低能源消耗、减少

学位

Al-10.7Zn-2.4Mg-0.9Cu合金快速凝固热挤压显微组织力学性能

多道次搅拌摩擦加工AZ31镁合金板材的组织与性能研究

镁合金具有密度小、比强度高、电磁屏蔽性能好等优点,在需求轻量化的汽车、航空、3C等领域都有广阔的应用前景。但密排六方晶体结构导致镁合金的常温塑性及成形性能较差,而且

学位

多道次搅拌摩擦加工AZ31镁合金晶粒细化力学性能耐腐蚀性能

基于变化观念与平衡思想的高中化学教学设计及实践

随着经济与文化的发展,社会对人才的定义提出了新的要求。目前我国教育事业的重要内容与核心之一就是“立德树人”,要求我们建构适合于我国中学生自身发展的核心素养,并且要培养中学生适应其个人发展与社会要求的品质与能力。因此,将核心素养的培养作为高中化学教学的重要内容是必然的。而其中“变化观念与平衡思想”本身就是化学核心素养的重要构成之一,因此对于教师来说,设计基于“变化观念与平衡思想”的教学设计并将其应用

学位

基于图像处理的Φ-OTDR振动模式识别研究

基于相位敏感光时域反射计(Φ-OTDR)的分布式光纤振动传感系统具有损耗低、灵敏度高、可探测距离远、抗干扰能力强和能同时进行多点定位等众多优点,被广泛应用于周界安防、石油管道检测和铁路沿线监测等领域。由于实际应用环境的复杂性,系统的漏报率和误报率高一直是亟待解决的问题。本论文采用图像处理的方法,围绕Φ-OTDR系统的信噪比的提升和振动模式识别问题展开理论和实验研究,完成的主要内容如下:(1)对Φ-

学位

光纤振动传感Φ-OTDR图像滤波小波包降噪图像特征提取朴素贝叶斯分类器卷积神经网络

BOG处理与LNG再气化过程的能量匹配研究

液化天然气(LNG)运输,储存等过程中,由于储罐和管道达不到绝对的隔热,不可避免的会产生蒸发气(BOG)。BOG的存在会造成储罐压力升高,对储罐结构造成破坏,存在较大的安全隐患,

学位

BOG再冷凝LNG冷能利用BOG燃烧发电净现值

单目相机图像深度和位姿估计的研究与应用

推理场景的立体结构是计算机视觉中常见的任务,其基本目的是根据传感器获取的平面信息推理出场景的立体结构。已有很多基于双目相机或距离传感器的研究用于解决这类问题。基于单目相机的方法由于只能利用一些局部的二维信息,在推理场景的立体结构时会遇到更多的挑战。但这类方法更少地依赖传感器,能利用有限的信息解决问题,所以非常具有研究价值。我们需要解决的两大问题是把二维信息变成局部立体信息并推理这些局部立体信息的关

学位

深度估计位姿估计单目相机深度学习语义分割

PC表面氧化石墨烯纳米复合膜层的制备及环境稳定性研究

聚碳酸酯（Polycarbonate,PC）透明件性能优异,应用前景广阔,随着透明件向国防和航空航天等高端领域的扩展,对制品的使役安全与寿命提出了更高的要求。但PC在服役过程中受到辐照

学位

聚碳酸酯氧化石墨烯聚多巴胺有机硅涂层环境稳定性

基于离散元法的RLCA型团聚体分散行为数值模拟研究

在聚合物基体中均匀混合纳米粉体是提高复合材料物理和机械性能的重要手段,但粉体中纳米颗粒极易在黏附力的作用下形成团聚体,严重阻碍了纳米尺度颗粒优异性能的发挥。因此,

学位

反应控制团簇凝聚模型黏附性颗粒团聚体表面能分散行为离散元法

煤粉的助磨及其对燃烧特性的影响研究

煤炭是我国水泥工业的主要燃料,据统计,2019年我国水泥工业煤炭消耗约为1.95亿吨标准煤。煤炭粉磨是能耗高且效率较低的过程,其粉磨年均单位电耗约为30～32k W·h·t-1,提高煤

学位

煤粉助磨剂作用机理燃烧特性

基于深度学习的场景结构化描述方法研究

与本文相关的学术论文