论文部分内容阅读
场景结构化描述技术是在人工智能以及大数据的背景下衍生出的一项重要技术,基于深度学习的场景结构化描述具有重要的应用研究价值。该技术是为了将视频场景中的关键信息自动化地以标签的形式结构化描述出来,使计算机能够理解视频内容并存储有意义的信息。目前,人们对于场景结构化描述的研究主要停留在自然语言处理的层面,通过视频的机器翻译来实现人与计算机之间的信息交互。但是由于视频的无结构化性,视频内容信息的复杂性,视频场景的不确定性等问题,要想实现场景结构化描述技术并非易事。本文从计算机视觉的角度出发,以视频场景、场景中结构化描述的对象、描述对象之间的属性关系为三个切入点,构建了结合场景分类、目标检测与识别、对象空间关系这三个方面组成的场景结构化描述方法,用以实现将视频中的无结构化信息以场景结构化描述技术表现出来。论文的具体研究工作分为三个部分:(1)提出了一种基于迁移学习和显著性区域提取的场景分类算法。首先建立用于场景分类的深度卷积神经网络模型,使用已经利用大型场景图片数据集训练过的网络模型进行参数迁移;将从视频中帧截取到的不同种类场景图片整合成新的小样本数据集,对用来训练的数据集进行图片预处理,采用滑动窗口来进行显著性区域提取;最后训练模型,最小化自定义的softmax分类器的损失函数,实现场景分类。实验结果表明,该算法可以有效应对训练样本不足导致的训练过拟合问题,并且对于场景构成因素较为单一、干扰因素少的环境取得不错了分类准确率;同时,在干扰情况较多的场景时,将分类准确率提高了约7%。(2)提出了一种基于轻量级网络的交通场景目标检测与识别算法。在实现场景分类的基础上,以交通场景作为主要的研究场景,并且为满足场景结构化描述需要,提出了多目标检测、实时性、轻量级网络的要求。首先,以YOLOv3算法网络模型为基础,通过替换主干网络、调整多尺度融合网络、设计新的损失函数,完成了YOLOv3-Mobile Net V2的轻量级网络模型的搭建;其次,确定交通场景中的描述对象,采集相关图片并做好标注工作,训练YOLOv3-Mobile Net V2网络模型,最小化损失函数,完成交通场景中目标的检测与识别。实验表明,该算法对交通场景中的描述对象可以针对性地识别;其次,在完成了轻量级网络模型的要求基础上,实现了多目标实时性检测与识别。(3)提出了一种基于对象空间关系的交通场景结构化描述方法。在场景分类和描述对象确定的基础上,通过研究描述对象之间的空间位置关系来完成交通场景结构化描述。首先,训练全卷积网络对视频图像中的对象作深度估计,提取出深度图,并利用深度图进行三维点云的转换,结合通过YOLOv3-Mobile Net V2算法检测出来对象区域相结合并优化,得到目标的三维定位;其次,通过空间坐标系与像素坐标系的转换,利用对象之间空间位置关系来进行场景结构化描述。在对空间位置关系的研究中,引入了逻辑描述的方法,以逻辑语言建立交通场景中的描述对象之间的空间位置关系,以空间位置关系来实现场景结构化描述。实验表明,以深度信息与YOLOv3-Mobile Net V2算法检测出的二维目标位置相结合的策略,可以定位出目标在三维空间的位置,对描述对象之间的空间位置定位提供了极大的便利。与此同时,可以通过描述对象之间的空间位置关系来对交通场景进行结构化描述。