论文部分内容阅读
当今时代,人工智能开始引领各行各业的发展,计算机视觉作为人工智能最直接的应用领域,已成为当前的研究热点。与此同时,卷积神经网络的出现极大地推动了计算机视觉领域的发展。计算机视觉与神经网络相结合,其最为主要,也是最为热门的落地点便是在自动驾驶系统的车外环境感知。车外环境感知包括了各类不同的任务,主要包括了目标检测识别、行人骨架线识别、图像语义分割等。对于自动驾驶车外环境感知系统而言,理想状态是同时运行这些任务,得到多种类型的结构化数据。本文的研究工作围绕基于深度学习神经网络的车外环境感知技术展开,具体包括目标检测识别、行人骨架线识别、图像语义分割等,并对多网络的融合以及网络压缩进行了研究。针对目标检测识别中网络泛化性较差的问题,论文通过在原有网络的基础上引入动态残差网络结构,使得模型可以适应不同交通场景,从而优化最终的结果。在这一过程中,本文通过自行采集并标注数据,得到了相应的目标识别训练及测试样本。针对人体骨架线识别这一课题,论文采用基于RGB图像的人体骨架线估计方法,自下而上,首先检测图像中所有人关键点的位置;在得到检测结果之后,通过构建人体关键点亲和场对关键点检测结果进行连接,最终得到人体的全部骨架信息。在自动驾驶场景中,人体骨架线识别是行人行为预测以及交警手势识别的基础。针对在测试像素级语义分割过程中遇到的部分像素点分类错误的问题,通过观察具体测试案例,发现其分类错误的原因主要是由于模型未能有效获取区域性信息。针对这一原因,提出了多尺度池化拼接方法进行改善。该方法可以有效地提取不同像素面积的区域性信息,并将这些区域性信息与局部信息进行整合。同时,理论分析了不同池化算法的优劣及原因,并通过实际测试直观地体现了多尺度池化拼接方法在改善像素点分类错误问题方面的有效性。针对同时运行三个模型所可能导致的总模型体积大、运行算力要求高、多个模型单独运作难以保证数据输出的同步性等一系列问题,研究了Root-Branch结构的混合增强网络MixNet。其中,Root部分实现了共用前端网络提取低层语义信息,有效减小了总模型体积以及运行时的算力要求;Branch部分实现了针对不同任务提取对应的高层语义信息,保证了模型的效果。这可以较大程度的提升算法在实时运行时的帧率,这点对于自动驾驶汽车车外感知极为重要,同时也利于算法的工程化应用。