论文部分内容阅读
一直以来,从遥感数据进行信息提取是一个长期的遥感科学难题。遥感图像分类是遥感图像信息处理中最基本的问题之一,其分类技术是遥感应用系统中的关键技术,遥感图像分类方法的精度直接影响着遥感技术的应用发展。许多研究者一直在尝试、改进,探索新的方法,以不断提高遥感图像自动分类算法的精度和速度。在遥感图像分类处理的实际应用中,要获得高精度的分类结果,需要大量的训练数据,标记这些训练数据需要大量的人力和物力,而且还很费时。另一方面,在遥感领域,现代高分辨率传感器技术的采用,使从影像获得大量的未标记数据成为可能,收集未标记数据是比较容易和经济的。如何在少标记训练样本下,充分利用大量的未标记样本来提高遥感图像分类的精度是本文研究的重点。本文基于机器学习理论,研究集成学习、半监督学习和主动学习的集成,充分挖掘遥感图像分类中大量未标记样本的有用信息,用以扩充少量已标记样本,增强分类器的能力,提高分类的精度。论文完成的主要工作如下:(1)集成分类器性能的关键点是系统中多个分类器之间的差异性。在已有度量差异性的指标基础上,文中提出了同时考虑精度和不一致性的A&D度量方法,选择性地构建多个分类器并行模型MCS,与Bagging、Adaboost集成方法进行比较分析,在训练样本数目比较少的情况下,保证了遥感图像分类的性能和泛化性。此外,采用了新的启发式多变量优化算法(MOA)解决SVM参数寻优问题,与常规的网格搜索、遗传算法和粒子群算法相比较,从效率和选择参数的性能来看,MOA是比较可取的方法。(2)研究探讨了半监督协同训练与集成学习相结合。将集成分类器应用于自训练Self-training和Tri-Training算法,构建E_Self-training, Tri-MCS方法,对于20%训练样本比例的数据,E_Self-training的分类精度相对于Self-training提高了0.849%;Tri-MCS比Tri-J48提高了2.395%。以近邻法kNN为基础,提出的最短距离数据编辑方法(NE-NED)对Tri-J48分类方法中误标记的数据进行修正、移除,一定程度上改善了训练集的质量,分类精度由91.43%提高到了91.86%文中提出了半监督随机森林分类方法(SSLRF),对研究的数据集,分类精度达到94.36%,相对随机森林提高了0.5325%。(3)基于主动学习理论,本文从主动采样策略出发,给出随机采样RandomSampling,简单不一致采样SDS,最大投票熵EPS以及多类SVM采样模型SVMEPS和SVMAL。对于20%的训练样本数据,SDS和EPS方法的分类精度比分类器决策树J48提高了1.34%和1.33%而对于同一数据集,提出的SVMEPS和SVMAL相对于单分类器SVM,分类精度分别提高了1.77%和1.26%。实验结果表明,这些主动学习采样方法与传统的监督学习相比较,不同程度地提高了少标记样本下的分类性能。(4)针对半监督学习和主动学习的互补性,研究了如何将二者有效结合来提高分类性能。文中将提出的主动学习SDS和EPS采样方法合并到半监督学习Tri-Training算法中,得到的集成模型Tri-SDS和Tri-EPS的分类精度相对于半监督分类Tri-J48提高了2.72%和2.34%;比主动学习(SDS和EPS)提高了1.58%和1.21%。同时,文中提出了基于主动学习的半监督分类模型SemiAL,通过投票熵和近邻相似度两种方法计算置信度,从不同角度充分挖掘了未标记样本的信息来提高分类器学习的泛化性,以SVM为基分类器的SemiALEPS和SemiALCR的分类精度也达到了91.97%和92.55%,(SVM分类精度为91.31%)。(5)多视图的协同学习是充分利用不同特征空间的信息,在少量标记数据情况下提高监督学习算法的分类性能的方法。文中基于遥感图像的光谱特征和纹理特征形成的特征空间,提出了三种建立两个视图的方式:随机子空间法,光谱纹理分割,特征变量重要性分割法,提出了基于主动学习的多视图分类方法MV-SDS, MV-EPS和半监督主动学习的分类模型MV-SemiAL。对实际遥感数据,从不同的视图构建方式分析对比了不同分类模型下的分类结果,在光谱纹理分割视图下,MV-SDS, MV-EPS和MV-SemiAL的分类精度,相对单视图下的SVM分类性能分别提高了4.11%,3.87%和4.36%,结果表明多视图的主动学习比单视图的主动学习在标记样本数较少的情况下,能取得较好的分类效果。(6)基于网格计算的特征及基本理论,本文设计和搭建了遥感图像分类并行处理平台,该平台支持动态地扩展各类服务和节点机数目。在节点机上部署了遥感图像处理的分类服务,远程用户从客户端提交的分类任务,在网格的中心服务器中完成任务的分解,调度分配给个节点机完成。实验结果表明,对研究区域大小为932M的遥感图像,6台节点机并行分类处理的加速比为3.2,加速效率为0.53。该平台实现了遥感图像并行分类的架构,有效提高大容量遥感数据的分类效率。本文将集成学习、半监督学习和主动学习三者相集成,充分利用大量未标记样本来扩充训练集,以提高监督分类的分类性能和泛化性,为少标记样本的遥感图像分类提高精度提供了有效的途径。