论文部分内容阅读
目标识别一直以来是计算机视觉领域中备受关注的一项重要技术,它旨在使机器能够自主地判断场景中是否存在人们感兴趣的目标并从语义层面预测其所属类别,在制导导航、智能机器人、无人驾驶、安防监控等领域有着大量应用。三维目标识别是实现机器对三维环境进行感知和理解的关键技术之一,随着三维传感器等硬件设备的快速发展,相较于以前,三维数据的采集和获取成本越来越低,除了更多的大型公共三维数据集可供研究和开发使用外,三维目标识别的技术路线也逐渐由人工设计的三维特征与支持向量机等分类算法配合的方法转向基于深度学习的一类三维目标识别方法中。深度学习技术自2012年起已经极大地推动了二维计算机视觉领域多项任务的发展,基于深度学习的三维目标识别方法是近几年开始发展的新兴研究领域,也是一个具有重要研究价值且富有挑战的研究领域。鉴于此,本文围绕上述任务开展理论和技术研究,聚焦基于卷积神经网络的三维目标识别技术,取得了如下进展。在深度学习方法理论方面,本文回顾了现有卷积神经网络在三维目标识别领域的发展历程,系统总结了卷积神经网络的相关基础理论知识。本文从卷积神经网络的核心结构出发,详细地讨论和分析了各部分的数学原理,以及目前主流的经典网络优化算法。此外,本文对卷积神经网络具体实现中经常采用的正则化手段进行了总结归纳,列出了一系列具有参考价值的网络训练技巧。在三维目标识别技术方面,本文提出了能够进行实时三维目标识别的轻量级三维体素卷积神经网络模型LightNet,在一定程度上解决了现有三维网络模型在该领域上识别精度和识别效率的矛盾。该网络模型融合了类别预测和方向预测两个任务,进而对网络进行多任务学习训练,明显地提升了现有浅层三维卷积网络的识别精度和效率。经过在多个主流三维数据集上的测试,本文提出的LightNet网络模型能够有效地降低过拟合风险,在大型和小型数据集上均取得了较好的识别结果,且具有当前三维网络中最少的网络参数,识别效率满足实时性要求。基于以上工作,本文对主要基于卷积神经网络的三维目标识别技术从基础理论到具体实现进行了梳理、探究和讨论,并设计出一种用于实时化应用的卷积神经网络模型,为今后在该领域的深入研究打下基础。