论文部分内容阅读
基于视觉的场景识别是未来智能感知的一个重要技术,其支撑了包括自动驾驶,智能制造,智能交互等多个领域。现有的场景识别技术主要还是依赖于大量的传感器设备,不能完全通过处理视觉信息来进行。随着机器学习,计算机视觉,人工智能等技术的成熟,基于视觉的场景识别技术已有了飞速的发展。但是目前的场景识别技术是一种点对点的任务映射,需要大量的数据训练才能识别单一的某个任务。针对这个问题和调整,本论文提出了一种基于类脑计算的智能化深度学习网络,通过类脑的方法来完成场景的识别任务,并且网络模型可以快速的迁移到陌生的场景中使用。在本文中我们以场景识别中的智能视觉测距和视觉定位为主要研究切入点,基于元学习网络中的One Shot Learning(OSL)方法,提出了基于OSL的自适应深度估计网络和基于OSL的记忆片分割匹配模型定位方法。两个模型的输入信息均为视觉图像,深度估计网络可以得到视觉中的每个目标的检测框位置、类别信息、距离信息。视觉定位方法可以得到对应的地理位置信息。相较于现有的视觉测距和定位方法我们引入了类似大脑元认知中的记忆认知和认知调节两个功能来搭建模型,不仅大大增加了模型测试准确度,同时使得模型具有强迁移能力,可以在完全不训练新场景数据的情况下进行有效的测试。本文的主要贡献与创新点包括:1.提出了基于OSL的自适应深度估计网络,可以并行完成包括对视觉信息的物体识别、检测框识别和距离测量等多个任务。本文所设计的视觉估计网络通过记忆存储和元控制门限两个部分来拟合大脑的元认知工作过程,是一种类脑的深度网络架构。通过本文的视觉测距方法可以显著降低传统方法的测试误差,同时由于元认知具有迁移特性,因此本文的视觉测距模型在新的数据集上完全不需要训练也可以取得一定的测距效果。2.针对目前视觉定位模型迁移性较差的问题,提出了基于图像地理位置定位的记忆分割匹配网络模型。记忆分割匹配网络的灵感来源于生物记忆检索机制。因为长短期记忆网络具有类似哺乳动物脑海马体中的定位导航功能,所以我们用其来提取视觉的定位信息,以匹配的形式输出地理位置并且加入了隐马尔可夫模型来提高模型的准确度。基于海马体的定位系统具有一定的元认知能力,因此可以在不训练的情况下完成陌生场景的定位工作。3.针对视觉测距模型我们在KITTI2012和CityScapes数据集上进行了训练与测试。我们发现在KITTI2012数据上深度估计网络在100米视觉范围内的平均距离误差仅为2米,平均距离误差率为8.8%。相比于传统方法测距效果提高了22.8%。在CityScapes数据上100米视觉范围内平均距离误差为4.5米,而现有的最优方法误差为7.5米。测距误差要远小于目前已有的方法。同时我们使用KITTI训练集训练模型并在CityScapes下进行测试,在完全不训练情况下,100米视觉范围内平均距离误差仅为8.7米,测试结果甚至优于目前部分其他论文的测距方法。4.针对视觉定位方法,我们测试了三个数据集。在Oxford Robot Car测试集上,在40米误差内,可达到96.6%的测试准确率。在Google Street View测试集上,由于输入了不同视野方向的视觉信息,在50米阈值范围内甚至可达到97.3%的定位准确率。同时为了验证模型在新的数据上的迁移能力,我们使用Oxford Rbot Car下训练的模型在Campus数据上进行了定位测试,通过测试我们发现在10米阈值范围内,我们的匹配定位方法在完全不训练Campus数据的情况下可以达到91.9%的定位准确度,相比于训练的结果仅仅降低了1.3%。