结合多通道深度学习和随机森林的地表分类

来源 :软件 | 被引量 : 0次 | 上传用户:or4108432566
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘  要: 地表分类技术对地面无人驾驶车辆的感知能力有着重要影响。而针对传统卷积神经网络CNN(Convolutional Neural Networks)地表分类效果不佳的问题,本文提出一种结合多通道深度学习和随机森林的地表分类算法。算法先通过图像计算得到人工设计的特征LBP;再采用多通道融合技术,将原彩色图像的RGB三通道和LBP通道加以融合形成融合图像;然后构建并预训练卷积神经网络,以此提取融合图像的关键特征信息;最后用随机森林分类器代替卷积神经网络输出层完成地表分类。实验结果表明,本文算法识别正确率达到98.56%,相比于传统卷积神经网络能取得更好的分类结果,具有一定的鲁棒能力。
  关键词: 卷积神经网络;多通道融合;地表分类;随机森林;LBP特征
  【Abstract】: Surface classification technology has an important effect on perception ability of ground driverless vehicles. To solve the problem of ineffective land surface classification of traditional Convolutional Neural Networks (CNN), the paper proposes a land surface classification algorithm based on multi-channel deep learning and random forest. The algorithm firstly obtains artificially designed feature LBP by image calculation, then fuses RGB three-channel and LBP channel of original color image to form the fusion image with multi-channel fusion technology, constructs and pretrains convolutional neural network to extract key feature information of the fusion image, finally replaces output layer of convolutional neural network with random forest classifier to complete surface classification. Experimental results show recognition accuracy of the algorithm reaches 98.56%. Compared with traditional convolution neural network, the algorithm can achieve better classification results and has some certain robustness.
  【Key words】: Convolutional neural network; Multi-channel fusion; Surface classification; Random forest; LBP characteristics
  0  引言
  近年來,随着计算机硬件水平与模式识别技术的发展,无人驾驶车辆的研究得到了得到了重大发展[1-3],其广泛应用于国防等各个领域。地表分类是无人驾驶车辆研究的一个重要课题,对于提升车辆的感知能力有重要影响。
  目前,针对非结构化道路的地表分类技术还不成熟,因为在非结构化的行车环境下,场景结构复杂,光照条件多变,图像品质随感知距离增大而下降,非结构化环境感知成为亟待解决且极具挑战性的问题。文献[4]提出一种基于 PCA-SVM 准则改进区域生长的方法,因为降维可能会忽略原图像部分特征,导致对道路边缘相似地表的识别效果不佳。文献[5]提出多通道卷积神经网络模型,虽然处理的是完整图像,效果良好,但对纹理特征信息并不重视,针对复杂纹理地表图像的区分效果不佳。
  上述的两种方法都使用了原图像作为输入,而如果直接对原图像进行处理是较为容易忽略部分关键特征的。而本文提出算法先对图像处理生成纹理特征,将其与原图像融合形成多通道的方法就可以在这方面做到比较好的解决,同时对非结构化道路的适应性更强,对于非结构化地表分类的研究有极大的参考价值。
  本文算法采用多通道融合技术将RGB彩色图像和人工设计的特征LBP[6]加以融合,构建卷积神经网络提取融合图像的关键特征信息,再将关键特征信息输入随机森林分类器使其自分类学习,最终得到图像分类结果。
  1  地表图像特征提取及分类
  地表图像分类是根据地表图像及其反映的传统特征,将不同类别的地表图像进行区分。鉴于直接使用原彩色图像可能并不能很好地刻画纹理特征,我们先从原图像提取得纹理信息;再将其与原彩色图像加以融合[7],利用深度学习技术对其再处理提取更为有效地的信息。
  算法流程如图1所示。
  整个算法由多通道融合特征模块、卷积神经网络提取模块以及随机森林分类器两部分组成。首先,由样本图像计算出LBP纹理特征,再将其与原彩色图像融合处理成新的张量。然后,采用预训练多通道卷积神经网络,经过多次卷积、池化和降采样操作,得到更关键的特征向量。最后将特征向量输入随机森林分类器,分类器进行运算与分类后,完成最终分类。
  1.1  多通道融合特征   本算法采用多通道融合特征,包含地表原彩色图像以及LBP纹理特征图。
  LBP(局部二值模式)算子主要用于描述图像的纹理特征信息,具有灰度不变性、旋转不变性等优点。
  LBP算子是对图像中的任意像素都进行以下处理:以其为中心取一个3*3大小的矩形窗口,将其像素值设置为阈值pc,窗口内其他像素值x若大于此阈值则取一、小于其则取零,这样窗口内将产生八位二进制数字,按顺序组合起来则为中心像素的LBP值(取值范围为0-255),即反映了该区域的纹理特征。LBP的计算公式如下:
  通过该算子对所有像素进行计算,每个像素填入LBP值,最终生成与原图大小一致的LBP特征图,作为第四通道数据。
  最后将四个通道叠加,输入构建的卷积神经网络。采用RGBA图像格式可视化显示如图2所示。
  1.2  构建卷积神经网络特征提取
  卷积神经网络CNN[8-13]是一种经典神经网络,其模型是模仿人脑神经元细胞信息传递的机制,该模型对视觉信息处理非常有效,近年来被广泛使用在图像处理领域并取得显著成果。卷积神经网络对地表图像进行逐层特征处理,不断提取更为重要的特征数据输入到下一层中,直到最后一层通过全连接层转换到类别向量,与标记类别进行对比,并通过BP[14]算法将结果误差信息反馈给前层网络,使网络模型根据数据集不断学习,最终得到參数训练好的模型。
  卷积神经网络包括输入层、卷积层、最大池化层、全连接层。输入层,将双通道融合特征图输入模型。卷积层,将前一层的特征图迭代乘上若干个卷积核,得多层特征图像。卷积层的计算公式如下:
  如图3所示,为本文在调整Alexnet网络结构基础上构建的地表分类CNN模型结构。
  相比于大卷积核,多个小的卷积核可以使模型引入更多的非线性,得到更多图像特征,同时减少模型参数量[15],所以模型采用3*3的小卷积核。
  Dropout层为随机失活层,即根据丢失几率随机将某全连接层的部分节点设置为不参与运算,以此来降低网络模型的过拟合几率,使网络更加健壮,对复杂数据具有更好的鲁棒性,所以模型在卷积层及全连接层中引入Dropout抑制过拟合。
  在全连接层中,神经元个数减少的同时,特征语义性更强,但却导致部分低级语义特征丧失,对FC2层神经元个数的选取极为重要。通过调整FC2层神经元个数设计5种网络如表1所示,通过后序实验选择性能最优的网络。
  由于卷积神经网络输出层softmax分类器较为简单,分类能力较弱,所以使用训练集预训练模型,获得模型参数后,将特征图输入模型后取出倒数第二层数据获得特征向量。使用其他分类器对特征向量进行分类。
  1.3  随机森林分类器
  分类模型选取了随机森林[16]分类器,即在训练集中随机重采样选出一定数量的样本(可重复采样),在所有样本上,对这些样本建立分类器,重复以上两步多次,获得相应个数的分类器。在测试实验中,将测试数据输入随机森林分类器,它会传入所有分类器,进行各自分类,最后根据分类器汇总的投票结果,选择票数最多的类别作为最终结果输出。
  由于随机森林分类器实际上拥有多个分类器,所以对数据的泛化能力好,出错率低。
  2  实验结果与分析
  为了验证本文所提出的基于多通道卷积神经网络的地表分类模型的有效性,将本文中提出的方法在南京理工大学自然纹理数据库上进行了测试,并将测试结果与其他常用方法进行了对比。
  2.1  数据集介绍
  数据集选用南京理工大学自然纹理数据库进行实验,该数据库一共包含8997张分辨率为64X64的彩色地表图像,其中泥土图像2999张,草地图像2999张,沙砾图像2999张。将数据集按7:3的比例随机划分为训练集和测试集。部分数据集如图4所示。
  为实现更好的分类效果,首先对训练集数据进行预处理,将图像RGB每个通道等分为16个灰度级,以该灰度占各通道比例做直方图,以该直方图为特征(图5所示)用kmeans进行聚类,肘方法(参
  考文献)确定最佳的聚类簇数。将泥土样本分为2个子类,砂石样本分为3个子类,草地样本保持不变,一共6个类别,如图6所示。
  2.2  实验设计与结果分析
  实验使用搭载有NVIDIA Tesla T4的服务器进行训练,显存为16GB。使用tensorflow平台训练模型,实验批尺度为32,模型共迭代200次,设置初始学习率为0.001,为防止过拟合设置学习率衰减项为0.000001,动量为0.9进行优化。
  针对表1中的5种网络,在南京理工大学自然纹理数据库上采用原图像RGB三通道加LBP人工设计特征通道共四通道为输入进行实验测试,得到结果如表2所示。
  由表2可知,网络Ⅲ具有最好的分类性能,其FC2层的神经元个数为128个,说明在网络其他结构及输入输出相同的条件下,FC2层大小选择128较为合理。
  以网络Ⅲ为卷积神经网络结构,在南京理工大学自然纹理数据库上采用RGB、LBP、HOG、gray等通道及支持向量机(SVM)、随机森林(RFC)分类器进行试验,为减少偶然性,每组实验做5次取平均,得到表3所示的结果数据。
  表中给出了灰度图、RGB彩色图、HOG特征图、LBP特征图、RGB+HOG多通道图、RGB+LBP多通道特征图在不同分类组合下的测试集正确率,可以看出,相较于单一的灰度特征,颜色信息的加入对于地表分类效果有明显的提升,并且RGB颜色信息和人工设计的特征HOG、LBP的融合识别率也高于单独使用的实验结果,且采用LBP特征与RGB融合效果更好。同时,采用CNN作为特征提取器与传统分类器组合的方式优于单独使用效果,随机森林分类器的表现优于SVM。   使用本文提出的方法,得到最终各类别的识别正确率及混淆矩阵如表4和表5所示。
  2.3  泛化性测试
  为测试模型的泛化性,下面是在野外真实场景中进行分类的实验结果,其中,图7为分辨率为2048768的原图像,图8为由本文分类方法分类得到的图像,其中黑色为泥土区域,灰色为草地区域,白色为砂石区域。
  图8可以看出,本文提出的基于RGB和LBP的多通道深度学习结合随机森林的模型能够较好地识别地表纹理图像。
  3  结语
  针对非结构化道路识别中特征繁多、分类困难,本文采用基于多通道深度学习的方法,在保留原始特征的同时,结合人工设计的特征LBP,加强了纹理特征的刻画,并采用随机森林完成最后分类,以提升分类能力。实验结果也表明该方法具有良好的分类性能,识别正确率达到98.56%。相较传统方法,本文方法可以更好提升地面无人驾驶车辆非结构化环境感知能力与水平。
  参考文献
  [1]Chavez-Garcia R O, Guzzi J, Gambardella L M, and Giusti A. Learning ground traversability from simulations [J]. IEEE Robotics and Automation Letters, 3(3): 1695-1702, July 2018.
  [2]Andrakhanov A, Stuchkov A. Traversability estimation system for mobile robot in heterogeneous environment with different underlying surface characteristics[C]. In Proceedings of CSIT, pp. 549-554, September 04-08, 2017, Lviv, Ukraine.
  [3]刘家银, 唐振民, 吴国星. 基于MVSVM和超像素的可通行区域检测方法[J].  华中科技大学学报(自然科学版), 43(增刊I): 345-249, 2015.
  [4]王新晴, 孟凡杰, 吕高旺, et al. 基于PCA-SVM准则改进区域生长的非结构化道路识别[J]. 计算机应用, 2017(6).
  [5]崔巍, 杨健, 常合友. 基于多通道卷积神经网络的非结构化道路路表分析[J]. 计算机应用与软件,2016, 33(1): 159-162.
  [6]卢官明, 左加阔. 基于二维局部保持鉴别分析的特征提取算法[J]. 南京邮电大学学报(自然科学版), 2014, 34(5): 1-8.
  [7]毛莺池, 王静, 陈小丽, 徐淑芳, 陈豪. 基于特征组合与CNN的大坝缺陷识别与分类方法[J]. 计算机科学, 2019, 46(03): 267-274.
  [8]Ji S , Xu W , Yang M , et al. 3D Convolutional Neural Networks for Human Action Recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(1): 221-231.
  [9]Lee H, Grosse R, Ranganath R, et al. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations[C]//Proceedings of the 26th annual international conference on machine learning. ACM, 2009: 609-616.
  [10]Gong Y, Jia Y, Leung T, et al. Deep convolutional ranking for multilabel image annotation[J]. arXiv preprint arXiv: 1312. 4894, 2013.
  [11]Chan T H, Jia K, Gao S, et al. PCANet: A simple deep learning baseline for image classification?[J]. IEEE transactions on image processing, 2015, 24(12): 5017-5032.
  [12]Ji S, Xu W, Yang M, et al. 3D convolutional neural networks for human action recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(1): 221-231.
  [13]Ji S, Xu W, Yang M, et al. 3D convolutional neural networks for human action recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(1): 221-231.
  [14]LeCun Y, Boser B, Denker J S, et al. Backpropagation applied to handwritten zip code recognition[J]. Neural computation, 1989, 1(4): 541-551.
  [15]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv: 1409. 1556, 2014.
  [16]李玲, 李晉宏. 基于随机森林修正的加权二部图推荐算法[J]. 软件, 2018, 39(01): 110-115.
其他文献
摘 要: 随着电动汽车的普及,电动汽车在充电过程中的安全事故频发。如何低成本的对电动汽车电池进行健康诊断并保证充电过程的安全性,是当前新能源汽车进一步普及所面临的一个重大难题。文章基于目前常见的直流充电桩,以STM32为主控制器开发并设计了电池诊断系统,通过实验对诊断方法进行了验证,结果表明该系统可以对动力电池进行健康诊断,提升充电过程的安全性。  关键词: 电动汽车动力电池;直流充电桩;电池诊断
期刊
摘 要: 随着科技和社会发展,人们的生活发生日新月异的变化,生活品质也在不断提高,电子秤更新换代的速度更是惊人,由以前沉重复杂变的灵活小巧,精度也不断提高,最主要的是成为家家户户必不可少可靠的称量工具,由于它的功能越来越丰富,越来越人性化,得到了广大人民群众的青睐,大街小巷都能发现它的身影。通过基于单片机的高精度电子秤设计,又进一步的完善了传统电子秤所存在的不足,更加方便了人们的生活。  关键词:
期刊
摘 要: 本文对于意见挖掘领域中的评价对象的修剪和聚类问题,提出使用K-means聚类算法和BIRCH聚类算法相结合的方式来进行评价对象的修剪和聚类。利用BIRCH算法类别聚类的功能对评价对象进行聚类,并删除包含较少数据的簇来实现修剪评价对象;再通过对于剩下的簇使用K-means聚类算法来获得最优评价对象。这种修剪聚类方法与以往的基于PMI算法修剪然后基于K-means聚类算法相比,减少了评价对象
期刊
摘 要: 在21世纪的今天,人们的生活水平不断提高的同时,科技也在不断进步,台灯也逐步走向智能化。台灯作为一个小的照明工具,不但给我们的生活提供了很大的便利,而且丰富了我们的世界。近年来,单片机作为智能台灯的重要组成部分也在不断的发展,也在不断地完善,基本实现了体积小,功耗小,实用性大的作用。所以,在生活中,单片机也成为了一种重要的特殊器件,本文主要以单片机为基础进行智能台灯的设计。然而它的功能也
期刊
摘 要: 近年来,人们的节水思想发生巨大变化,针对灌溉这一技术的要求也越来越高。为了找寻一种智能化、易控制和不造成水资源浪费的更高效的灌溉技术,新的智能灌溉系统的设计与实现迫在眉睫。本文所计划的智能灌溉系统是基于STC89C52单片机,操纵DHT11温湿度传感器收集温度、湿度和关于植物的相关数据,将数据进行收集和处置后,按照数据对农作物进行相应的智能灌溉,以便充分发挥智能灌溉系统的作用。  关键词
期刊
摘 要: 海量时空数据的高效存储、读写、处理与分析是当前地理信息科学领域的研究热点。本文对目前主流大数据技术产品进行了选取和融合,开展了基于HDFS+Spark的时空大数据存储、处理分析等方面的研究和探讨,以智慧无锡时空信息云平台为应用对象,搭建了一套时空大数据存储处理的集群平台,并通过具体应用实验,得到了时空数据存储、处理、挖掘的响应时间及可视化展示结果,证实了HDFS+Spark集群计算平台在
期刊
摘 要: 本文旨在对一种经典的图像超分辨率方法——LLE算法(局部线性嵌入算法)及其代码进行一些改进和优化。为提高对大量图像块的搜索速度,我们采用kd树算法整理样本集;鉴于像素点灰度值的非负性,我们采用非负最小二乘法而不是LLE原来的最小二乘法,确定低分辨率图像块与训练样本集中k最邻近图像块的回归系数;最后,考虑到样本集选取和变换会对实验结果造成影响,我们对训练样本图像的若干因素进行一系列组合,通
期刊
摘 要: 从MBVD等效电路模型出发,研究了三种不同级联方式下FBAR滤波器的滤波效果,同时选取了其中滤波效果更好、应用更为广泛的梯形结构,进一步分析不同级联阶数下梯形结构FBAR滤波器的带内插入损耗与带外抑制的变化趋势,并通过仿真分析设计得出符合5G通信频段(3.4-3.6 GHz)标准的中心频率为3.5 GHz,带宽为100 MHz的五阶梯形结构FBAR滤波器。  关键词: 薄膜体声波谐振器(
期刊
摘 要: 目前我国海域监管手段单一,缺乏早期预警识别和连续跟踪监视能力,严重制约我国海洋强国战略的深入实施。本系统基于卫星、航空平台、通信终端产品等现有硬件基础,采用微服务技术架构,构建天空基协同广域目标识别与监视平台,对我国管辖海域内海上移动目标、海域利用活动和岛礁变化等典型目标识别与监视需求,构建“天、空、地”一体化监视体系,形成具有大范围早期预警和连续跟踪能力的海上目标识别与监视系统。  关
期刊
摘 要: 为了实现对视频中的行人进行实时、准确的人数统计,提出了一种基于深度学习的计数方法。首先,通过K-means聚类方法优化检测模型的先验框;其次,使用实际场景下获取的行人图像对深度学习模型YOLO-v3进行训练;然后利用Deep sort在线多目标跟踪算法跟踪多个行人并分别获取其轨迹;最后通过计数线法判断行人数量。该方法计数准确率可达89.2%,每帧检测时间可达65ms,且场景适应性强,鲁棒
期刊