论文部分内容阅读
计算机视觉作为一门研究利用传感器和计算机使机器“看”世界的科学学科,已经成为人工智能时代的重要研究领域。相比于二维图像,三维数据具有能提供三维空间几何信息、不受光照纹理变化影响等优势。随着三维数据获取技术的进步、计算能力的增强、深度学习技术的发展以及应用需求的增加,三维视觉技术的研究和应用受到了越来越多的关注。三维目标检测与识别是三维场景理解的关键技术,是机器理解世界并与世界交互的基础,在自动驾驶、智能机器人、AR&VR、遥感制图、生物医疗、战场感知等领域具有极其广阔的应用前景,近年来成为三维视觉领域的研究热点。本文围绕三维目标检测与识别任务深入展开理论与技术研究,并取得了如下研究成果。在三维目标检测方面,从单源数据和多源数据两个角度分别进行了三维目标检测算法的研究。针对纯点云数据的三维目标检测,首先提出了一种基于方柱体点云特征学习的鸟瞰特征图学习方法,利用基于PointNet++的点云网络通过端到端的方式学习鸟瞰特征图,然后提出了一种基于多尺度特征提取网络的鸟瞰图三维目标检测算法。整个算法具有良好的计算效率和三维检测性能,对小目标的检测表现良好。针对点云与图像融合的三维目标检测,首先提出了一种基于投影插值的点云特征与图像局部特征融合方法,并在此基础上构建了一个融合对应的点云特征与图像局部特征的三维目标检测网络F-FusionNet。同时,利用目标的二维包围框与三维包围箱之间的对应关系,提出了一种2D-3D包围框/箱对应损失函数,有助于提高对三维包围箱的估计精度。在三维目标识别方面,从多视图表示和体素表示两个角度分别进行三维目标识别算法的研究。针对三维数据的多视图表示,提出了一种联合卷积神经网络与双向LSTM的三维模型特征学习算法,并设计了一种CNN和LSTM联合网络的训练方法。该算法挖掘了三维目标多视角之间关联信息,提高了三维模型特征表示的辨别力。针对体素卷积神经网络计算量和内存消耗大的问题,提出了一种体素卷积神经网络二值化的方法。该方法通过在网络训练中二值化卷积层和全连接层的输入与网络权重参数,将体素卷积神经网络前向计算中的乘法运算转换为二值比特运算,从而极大地降低网络的计算量和内存消耗。