基于深度学习的场景结构化描述方法研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:FollowMyHeart88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
场景结构化描述技术是在人工智能以及大数据的背景下衍生出的一项重要技术,基于深度学习的场景结构化描述具有重要的应用研究价值。该技术是为了将视频场景中的关键信息自动化地以标签的形式结构化描述出来,使计算机能够理解视频内容并存储有意义的信息。目前,人们对于场景结构化描述的研究主要停留在自然语言处理的层面,通过视频的机器翻译来实现人与计算机之间的信息交互。但是由于视频的无结构化性,视频内容信息的复杂性,视频场景的不确定性等问题,要想实现场景结构化描述技术并非易事。本文从计算机视觉的角度出发,以视频场景、场景中结构化描述的对象、描述对象之间的属性关系为三个切入点,构建了结合场景分类、目标检测与识别、对象空间关系这三个方面组成的场景结构化描述方法,用以实现将视频中的无结构化信息以场景结构化描述技术表现出来。论文的具体研究工作分为三个部分:(1)提出了一种基于迁移学习和显著性区域提取的场景分类算法。首先建立用于场景分类的深度卷积神经网络模型,使用已经利用大型场景图片数据集训练过的网络模型进行参数迁移;将从视频中帧截取到的不同种类场景图片整合成新的小样本数据集,对用来训练的数据集进行图片预处理,采用滑动窗口来进行显著性区域提取;最后训练模型,最小化自定义的softmax分类器的损失函数,实现场景分类。实验结果表明,该算法可以有效应对训练样本不足导致的训练过拟合问题,并且对于场景构成因素较为单一、干扰因素少的环境取得不错了分类准确率;同时,在干扰情况较多的场景时,将分类准确率提高了约7%。(2)提出了一种基于轻量级网络的交通场景目标检测与识别算法。在实现场景分类的基础上,以交通场景作为主要的研究场景,并且为满足场景结构化描述需要,提出了多目标检测、实时性、轻量级网络的要求。首先,以YOLOv3算法网络模型为基础,通过替换主干网络、调整多尺度融合网络、设计新的损失函数,完成了YOLOv3-Mobile Net V2的轻量级网络模型的搭建;其次,确定交通场景中的描述对象,采集相关图片并做好标注工作,训练YOLOv3-Mobile Net V2网络模型,最小化损失函数,完成交通场景中目标的检测与识别。实验表明,该算法对交通场景中的描述对象可以针对性地识别;其次,在完成了轻量级网络模型的要求基础上,实现了多目标实时性检测与识别。(3)提出了一种基于对象空间关系的交通场景结构化描述方法。在场景分类和描述对象确定的基础上,通过研究描述对象之间的空间位置关系来完成交通场景结构化描述。首先,训练全卷积网络对视频图像中的对象作深度估计,提取出深度图,并利用深度图进行三维点云的转换,结合通过YOLOv3-Mobile Net V2算法检测出来对象区域相结合并优化,得到目标的三维定位;其次,通过空间坐标系与像素坐标系的转换,利用对象之间空间位置关系来进行场景结构化描述。在对空间位置关系的研究中,引入了逻辑描述的方法,以逻辑语言建立交通场景中的描述对象之间的空间位置关系,以空间位置关系来实现场景结构化描述。实验表明,以深度信息与YOLOv3-Mobile Net V2算法检测出的二维目标位置相结合的策略,可以定位出目标在三维空间的位置,对描述对象之间的空间位置定位提供了极大的便利。与此同时,可以通过描述对象之间的空间位置关系来对交通场景进行结构化描述。
其他文献
偏微分方程在数学、物理学、力学和工程技术等方面都有着广泛的应用。根据数学特征,偏微分方程主要分为三大类:椭圆型方程、抛物型方程和双曲型方程。在椭圆型和抛物型偏微分
随着近年来全球气候持续变暖,环境危机和能源消耗成为目前人类面临的一大难题。车身的轻量化有利于环保,而铝合金材料可以大大减轻车身结构件的重量,实现降低能源消耗、减少
镁合金具有密度小、比强度高、电磁屏蔽性能好等优点,在需求轻量化的汽车、航空、3C等领域都有广阔的应用前景。但密排六方晶体结构导致镁合金的常温塑性及成形性能较差,而且
随着经济与文化的发展,社会对人才的定义提出了新的要求。目前我国教育事业的重要内容与核心之一就是“立德树人”,要求我们建构适合于我国中学生自身发展的核心素养,并且要培养中学生适应其个人发展与社会要求的品质与能力。因此,将核心素养的培养作为高中化学教学的重要内容是必然的。而其中“变化观念与平衡思想”本身就是化学核心素养的重要构成之一,因此对于教师来说,设计基于“变化观念与平衡思想”的教学设计并将其应用
学位
基于相位敏感光时域反射计(Φ-OTDR)的分布式光纤振动传感系统具有损耗低、灵敏度高、可探测距离远、抗干扰能力强和能同时进行多点定位等众多优点,被广泛应用于周界安防、石油管道检测和铁路沿线监测等领域。由于实际应用环境的复杂性,系统的漏报率和误报率高一直是亟待解决的问题。本论文采用图像处理的方法,围绕Φ-OTDR系统的信噪比的提升和振动模式识别问题展开理论和实验研究,完成的主要内容如下:(1)对Φ-
液化天然气(LNG)运输,储存等过程中,由于储罐和管道达不到绝对的隔热,不可避免的会产生蒸发气(BOG)。BOG的存在会造成储罐压力升高,对储罐结构造成破坏,存在较大的安全隐患,
推理场景的立体结构是计算机视觉中常见的任务,其基本目的是根据传感器获取的平面信息推理出场景的立体结构。已有很多基于双目相机或距离传感器的研究用于解决这类问题。基于单目相机的方法由于只能利用一些局部的二维信息,在推理场景的立体结构时会遇到更多的挑战。但这类方法更少地依赖传感器,能利用有限的信息解决问题,所以非常具有研究价值。我们需要解决的两大问题是把二维信息变成局部立体信息并推理这些局部立体信息的关
聚碳酸酯(Polycarbonate,PC)透明件性能优异,应用前景广阔,随着透明件向国防和航空航天等高端领域的扩展,对制品的使役安全与寿命提出了更高的要求。但PC在服役过程中受到辐照
在聚合物基体中均匀混合纳米粉体是提高复合材料物理和机械性能的重要手段,但粉体中纳米颗粒极易在黏附力的作用下形成团聚体,严重阻碍了纳米尺度颗粒优异性能的发挥。因此,
煤炭是我国水泥工业的主要燃料,据统计,2019年我国水泥工业煤炭消耗约为1.95亿吨标准煤。煤炭粉磨是能耗高且效率较低的过程,其粉磨年均单位电耗约为30~32k W·h·t-1,提高煤