基于规则的遥感影像分类方法研究

来源 :安徽理工大学学报·自然科学版 | 被引量 : 0次 | 上传用户:ake5nene
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:介绍了决策树C4.5算法,并利用该算法实现了对遥感数据规则的挖掘,在此基础上设计并实现了针对于C4.5规则的编辑器,通过该编辑器能够实现对规则的编辑与管理。规则编辑器的设计与实现,为在分类过程中人工的干预提供了可能。将人工干预与基于数学理论规则的自动提取相结合,尤其是在地形较复杂的地区,将有利于分类精度的提高。利用黄山市LandSat TM影像,进行了基于C4.5算法自动提取规则的遥感影像分类实验。实验结果表明,利用C4.5算法提取的分类规则准确率高,利用提取的分类规则进行的遥感影像分类效果较好。
  关键词:遥感; C4.5算法;规则;分类
  中图分类号:TP75文献标志码:A文章编号:1672-1098(2014)04-0046-05
  遥感图像包含了大量丰富的信息资源,它是探测地物目标最丰富、最直观的信息载体[1-2]。随着遥感技术的发展,遥感信息在国民经济及科学研究中的作用越来越受到各个行业的重视。而利用遥感图像获得遥感信息的一个重要的中间环节就是遥感图像分类。遥感图像分类是指按照一定的规则或算法,根据光谱亮度、空间结构等特征将象元划分为不同的类别[3]。遥感图像分类是专题制图的基础也是遥感应用研究的基础,在遥感影像的处理过程中处于重要的地位。它的精度直接影响到生产遥感影像各种产品的质量。而在进行分类的过程中,遥感图像处理的各个环节中,分类规则的建立至关重要。分类质量好坏的关键在于是否有高质量的分类规则。好的分类规则,能提高分类精度,反之建立的分类规则不合理,将会影响分类的精度[4-6]。
  基于以上原因,本文主要是针对在分类过程中建立分类规则的方法进行研究。通过利用研究区影像提取的分类规则,对其进行分类,通过分类精度来对提取的分类规则的准确度进行评价。并设计出规则编辑器,通过该编辑器能够实现对规则的编辑,以达到人工干预的目的。将分析者的分类经验与基于规则的自动提取相结合,进而达到提高规则准确率,提高分类精度的目的。
  1分类规则的提取方法
  基于规则的遥感影像分类方法主要包括:训练样本的选择、分类规则的建立、影像分类。其中最关键的是分类规则的提取。分类规则制定的准确程度严重影响到后续分类的精度。规则的定义是将知识用数学语言表达的过程,可以通过经验总结获得,但这对分析者的分类经验及地学知识有较高的要求;也可以通过一定的算法获取。通过算法提取的分类规则,具有一定的数学理论基础,相较于经验获取的规则,具有一定的严谨性。但是在地形较复杂的地区,如若将基于数学基础自动建立的规则与人为经验相结合,制定的规则将更具有准确性。本文将基于决策树C4.5算法开发规则编辑器,实现了规则提取过程中人工干预与自动提取的结合。
  1.1C4.5算法
  C4.5(classification 4.5)算法[7-16]是Quinlan在1993年提出的,它是模式识别中十分经典的算法。它是在ID3算法的基础上发展而来的。C4.5算法对ID3算法进行了改进,之后它成为了诸多算法的基础。C4.5算法在单机应用中,不仅分类准确率高而且速度快。
  在C4.5算法中,它的分裂指标采用的是信息增益率(information gain ratio)而非ID3算法中采用的信息增益。用信息增益率作为分裂指标,克服了用信息增益来选择属性时偏向选择值多的属性的不足。在ID3算法的基础上,C4.5算法不仅增加了了对连续型属性和属性值空缺情况的处理,对树剪枝也有了较成熟的方法。
  1) 用信息增益率来选择属性。生成决策树过程中的关键是确定分裂指标。C4.5算法中分裂指标确定的基本思想是比较各训练样本数据中属性信息增益率的大小,取其中信息增益率最大的但又不低于所有属性平均值的属性作为的一个分支节点,然后再将每一个可能的取值作为这个节点的一个分支,递归地形成决策树。
  在C4.5算法中作为属性分裂指标的信息增益率定义为
  GainRatio(S,A)=Gain(S,A)SplitInformation(S,A)
  式中:Gain(S,A)与ID3算法中的信息增益相同,而分裂信息SplitInformation(S,A)代表了按照属性A分裂样本集S的广度和均匀性。
  SplitInformation(S,A)=-∑ci=1|Si||S|log2|Si||S|
  式中:S1到Sc是c个不同值的属性A分割S而形成的c个样本子集。
  2) 可以处理连续数值型属性。若存在连续的描述性属性,首先必须将该连续性属性分割为离散的区间集合,对其进行离散化处理。
  C4.5既可以处理离散型属性,也可以处理连续性属性。在选择某节点上的分枝属性时,对于离散型描述属性,C4.5的处理方法与ID3相同,按照该属性本身的取值个数进行计算;对于某个连续性属性Ac,假设在某个结点上的数据集的样本数量为total,C4.5将作以下处理:
  a) 将该结点上的所有数据样本按照连续型描述属性的具体数值,由小到大进行排序,得到属性值的取值序列{A1c,A2c,……Atotal}。
  b) 在取值序列中生成total-1个分割点。第i(0  c) 从total-1个分割点中选择最佳分割点。对于每一个分割点划分数据集的方式,C4.5计算它的信息增益比,并且从中选择信息增益比最大的分割点来划分数据集。
  3) 采用了一种后剪枝方法。为了避免树的高度无节制的增长,避免过度拟合数据,C4.5采用了一种后剪枝方法。该方法使用训练样本集本身来估计剪枝前后的误差,从而决定是否真正剪枝。方法中使用的公式如下   pr[f-qq(1-q)/N>Z]=C(3)
  其中:N是实例的数量; f=E/N为观察到的误差率(其中E为N个实例中分类错误的个数);q为真实的误差率;c为置信度;z为对应于置信度c的标准差,其值可根据c的设定值通过查正态分布表得到。
  通过该公式即可计算出真实误差率q的一个置信度上限,用此上限为该节点误差率e做一个悲观的估计
  e=f+z22N+ZfN-f2N+z24N21+z2N(4)
  通过判断剪枝前后e的大小,从而决定是否需要剪枝。
  4) 对于缺失值的处理。在某些情况下,样本中可供使用的数据可能缺少某些属性的值。处理缺少属性值的一种策略是赋给它结点n所对应的训练实例中该属性的最常见值;另外一种更复杂的策略是为A的每个可能值赋予一个概率,通过它分配到某个类别的概率值来进行类别的分配。例如,实例S,给定一个布尔属性A,如果结点n包含6个已知A=1和4个A=0的实例,那么A(x)=1的概率是0.6,而A(x)=0的概率是0.4。于是,实例S的60%被分配到A=1的分支,40%被分配到另一个分支。这些片断样例的目的是计算信息增益,另外,如果有第二个缺少值的属性必须被测试,这些样例可以在后继的树分支中被进一步细分。C4.5就是使用这种方法处理缺少的属性值。
  1.2规则编辑器的设计与实现
  在基于规则的遥感影像分类方法中,对规则的组织与管理十分重要。本文依据决策树C4.5算法,以VS2008和C#为开发环境,设计并实现规则管理系统,规则编辑器中的规则是以树结构的形式来表示的,在分类规则建立的过程中,为人工干预提供了方式和途径。
  1) 系统设计。规则管理系统主要包括对规则的一些常规管理操作(打开、新建、撤销、重做、保存)和对规则的编辑操作(添加分支节点、添加叶子节点、对分支进行编辑)两大部分。
  2) 系统模块介绍。规则编辑器系统界面如图1所示。通过该系统,可以实现对规则的各种操作与管理。可以重新建立与制定新的规则集,也可以对规则集进行修改。利用此编辑器可以对利用C4.5算法提取的规则进行人工干预,以求得到最优的分类质量。
  3) 系统功能介绍。①常规编辑管理,主要包括对规则集的一些最基本的操作,包括新建、打开、撤销、重做、删除、保存等操作。通过这些操作,可以实现对规则的管理;②规则编辑功能,主要包括添加分支节点、添加叶子节点、编辑等操作。通过这几个功能可实现对规则的修改等操作,进而实现人工干预。规则编辑功能界面如图2所示。
  图1规则管理系统界面图2规则编辑操作界面
  2实验数据
  为了验证C4.5算法提取的规则的准确度,本文利用其对遥感影像提取的规则进行了分类实验。采用黄山市LandSat TM影像作为数据源,影像获取日期为2009年11月4日,该影像共7个波段(B1、B2、B3、B4、B5、B6、B7),其中B6波段空间分辨率为120 m,其余波段空间分辨率为30 m。并对影像进行了几何校正,误差在一个像元以内。然后利用感兴趣区域对影像进行裁剪,获得试验区影像,图4(左)为试验区第4、3、2波段的RGB彩色合成影像。
  图3分类规则
  3实验结果与分析
  3.1训练样本的选择
  C4.5算法对训练样本的质量要求很高,只有应用高质量的训练样本进行训练才能得出可信度很高的分类规则。本试验是在ENVI中调入试验区LandSat TM影像(见图4(左)),同时参考研究区的SPOT影像,人机交互的选择训练样本。对于截取的试验区按照森林(Class 1),裸地(Class2),水体(Class 3),其它水面(Class 4),其它用地(Class 5)划分为5个地物类别,共选取813个训练样本。
  3.2规则的提取
  在利用C4.5算法对遥感影像进行归纳学习之前,首先要确定学习的测试变量和目标变量。用试验区TM影像的7个波段的灰度值(B1、B2、B3、B4、B5、B6、B7)为测试变量,森林、裸地、水体、其它水面和其它用地为目标变量。
  首先将选择的训练样本文件转换为ASCII格式, 再利用excel处理ASCII数据文件, 使之满足C4.5归纳学习所要求的数据结构格式。利用C4.5算法自动建立决策树必须建立两个后缀分别为data和names的文件, 这两个文件必须同名, 且必须保存在同一个文件夹中。 其中data文件是训练区样本点的条件属性及所属类别构成的数据文件, 而names文件主要是对属性的名称和类型的定义。 本文在基于C4.5算法对试验区遥感影像进行知识挖掘后, 挖掘出的本试验区所有规则如图3所示。 将C4.5提取的规则应用到分类模型中, 实现对研究区TM影像的分类,其分类结果如图4(右)所示。
  图4待分类图像(左)及分类结果图(右)3.3分类精度评价
  为了更好地分析基于C4.5算法提取的分类规则的准确度,本文对分类结果进行了精度评价精度。本文采用的是基于混淆矩阵的方法[17]对遥感影像进行分类结果的评价,精度评价结果如表1所示。其中检验数据是综合参考同一地区高分辨率遥感影像与目视解译相结合,随机选取的检测样本。
  从分类结果以及精度评价表可以看出,利用C4.5算法提取的规则进行的分类,其结果是令人满意的。其中对水体和其它水面的分类精度最高,达到了100%。对其它用地的分类精度最低,只有70.19%,分析原因可能是因为地形因素的影响。如若在这些地形较复杂的区域,对分类规则加入集合了人为分类经验的人工干预,在此基础上可能会使分类精度得到提高。表1试验区基于C4.5算法分类精度评价结果
  类型森林裸地其它水面水体其它用地总和森林1288001137裸地91130041163其它水面5016006171水体0001490149其它用地101500113138总和152136160149161758生产者精度/%84.2183.08 100.00 100.00 70.19 用户精度/%87.0279.60 95.81100.00 89.68总精度:87.496 0%kappa系数:0.862 3注:表中“森林、裸地、其它水面、水体、其它用地、总和”表示象元的个数   4结论
  本文在研究C4.5算法的基础上,利用其对遥感数据进行了规则挖掘,并根据其生成的规则形式,设计与实验了规则编辑器,为人工干预与理论规则的结合提供了方式和途径。在利用C4.5算法自动提取规则的分类实验中,实验结果验证了利用该算法挖掘出的规则正确率高而且运行速度快,利用提取的规则进行的遥感影像分类结果令人满意。虽然基于C4.5算法提取的规则在遥感影像分类中显示出了巨大的潜力,但以下问题需要进一步研究:(1)当某一类别产生多条规则时,如何判别出最优规则。(2)在地形较复杂的地区,如若将C4.5算法自动提取的规则与人工干预相结合,能否得到较高、较理想的分类精度。这些都将是后续所要进行实验研究的内容。
  参考文献:
  [1]杨桄,刘湘南,张柏,等. 基于多特征空间的遥感信息自动提取方法[J]. 吉林大学学报:地球科学版, 2005,35 (2) : 257-260.
  [2]潘琛,杜培军,罗艳,等.一种基于植被指数的遥感影像决策树分类方法[J].计算机应用,2009,29(3):777-798.
  [3]赵英时.遥感应用分析原理与方法[M].北京:科学出版社,2003:10-200.
  [4]术洪磊,毛赞猷.GIS 辅助下的基于知识的遥感影像分类方法研究—以土地覆盖/土地利用类型为例[J].测绘学报,1997,26(4) :328-332.
  [5]张健康,程彦培,张发旺,等.基于多时相遥感影像的作物种植信息提取[J].农业工程学报,2012,28(2):134-141.
  [6]吴健生,潘况一,彭建,等.基于QUEST决策树的遥感影像土地利用分类-以云南省丽江市为例[J].地理研究,2012,31(11):1 973-1 980.
  [7]QUINLAN J R.C4.5:Programs for Machine Learning[M].San Mateo, CA: Morgan Kaufmann,1993:1-25.
  [8]张桂杰.数据挖掘决策树分类算法的研究与应用[D].长春理工大学硕士论文,2005.
  [9]HAN JIAWEI,KAMBER M. Data mining: Concepts and Techniques[M]. Beijing:Beijing Higher Education Press, 2001:285-358.
  [10]刘莺迎.决策树分类算法的分析和比较[J].科技情报开发与经济,2008(2):65-67.
  [11]吉根林.决策树分类技术研究[J].计算机工程,2004,9(30):94-98.
  [12]唐华松,姚耀文.数据挖掘中决策树算法的探讨[J].计算机应用研究,2001(8):18-22.
  [13]姜丽华,杨晓蓉.基于决策树分类技术的遥感影像分类方法研究[J].农业网络信息,2009(10):34-42.
  [14]刘勇洪,牛铮,王长耀.基于MODIS数据的决策树分类方法研究与应用[J].遥感学报,2005,9(4):405-412.
  [15]吴寒.基于粗糙集的决策树算法研究与改进[D].哈尔滨工程大学硕士论文,2008.
  [16]夏琰.数据挖掘决策树分类算法的研究与应用[D].吉林大学硕士论文,2008.
  [17]CONGALTON R G.A review of assessing the accuracy of classifications of remotely sensed data[J].Remote Sensing of Enviroment,1991,37(1):35-46.
  (责任编辑:李丽,范君)
其他文献
摘 要:平原矿区的煤矿地下开采改变地貌景观,同时加剧矿区土地的水土流失,降低土壤质量。而开采方式不同对地表土壤养分流失的影响程度同样存在较大差异。本文选择皖北五沟煤矿的充填和非充填开采两种开采方式的地面沉陷区,进行了土壤环境调查,监测了开采过程中土壤有机质、铵态氮、有效磷和速效钾等土壤养分的含量,分析其运移变化特征。结果表明,采矿区地表沉陷虽然时间不长,但土壤中的有机质和主要营养元素的含量流失发生
期刊
摘 要:为了研究多层连接双排桩支护结构桩间距对支护性能的影响,运用FLAC3D建立了深基坑多层水平连接双排桩支护的计算模型,进行分层开挖三维动态模拟计算,同时讨论了排距、桩长等参数对桩顶位移的影响。通过多工况数值分析求得:当桩长约为开挖深度的1.8~2.0倍时,排距与基坑开挖深度之比为0.43~0.50,基坑支护效果较好。为探究多层水平连接双排桩支护结构提供有益指导。  关键词:多层水平连接基坑支
期刊
摘要:基于线热源理论和非线性最小二乘法,建立了岩土热响应测试温度曲线自动拟合方法。考虑反演参数的实际取值范围,借助于惩罚函数方法建立岩土热响应测试约束目标函数,并将其转化为无约束目标函数情形求解,从而实现通过自动拟合岩土热响应测试曲线获取岩土热物性参数的目的;编写了热响应测试解释程序,并通过解释标准热响应测试结果验证了该方法的实用性和可靠性。  关键词:线热源理论;热响应测试;自动拟合  中图分类
期刊
摘 要:为了满足人们对绿色能源的迫切需求,生物乙醇及其清洁能源转换设备,如直接醇类燃料电池(DAFCs)吸引了越来越多人的关注,尤其是在设计和开发有效的阳极催化材料方面。采用溶剂热和紫外光还原法制备了石墨烯/二氧化钛/铂(RGO/TiO2/Pt)复合电催化材料。产物的形貌和结构分别采用扫描电子显微镜(SEM)、X-射线粉末衍射(XRD)、傅里叶变换红外光谱仪(FT-IR)等手段进行表征。形貌和结构
期刊
摘要:为了解决恶劣环境中噪声等因素对流速测量系统的影响,提出了两种抗噪算法。首先概述了流体流速测量的基本原理,分析了极性相关算法的结构、电路实现、以及峰点位置确定,然后介绍了最小均方算法(LMS)在流速测量中的应用,并对两种算法进行了实验仿真。根据两者的蒙特卡洛法仿真实验可以看出,在无噪及-20dBW噪声条件下,两种算法皆可进行精确的流速测量,且峰点位置清晰。但在噪声功率增强达到-15dBW时,两
期刊
摘要:层状KTiNbO5因具有离子可交换、层间结构均一可控等优点而引起了广泛的关注。采用高温固相法制备的KTiNbO5为前驱体,经H+交换、剥离改性制备出HTiNbO5纳米片并以其作为基体材料与Fe2O3纳米粒子复合制备出e-HTiNbO5@Fe2O3纳米复合材料。采用XRD、Raman、BET、HRTEM、TG-DSC和UV-vis DRS对样品的结构和光响应特征进行表征。结果表明,e-HTiN
期刊
摘要:射频识别技术(RFID)是物联网行业的基础技术,利用RFID技术可以对民用爆炸物品的流向进行更加有效的监管,但由于该技术会产生射频电流、辐射等危险因素,因此确保安全是其成功应用于民爆领域的前提条件。针对乳化炸药在RFID近场条件下的响应特性和安全性,利用不同电场强度对乳化炸药样品进行辐照,并对比分析乳化炸药经电磁场辐照前后的性能,研究了RFID对乳化炸药的危害,为RFID技术在民爆行业的应用
期刊
摘要:语用学和认知语言学中有关语境的研究均涉及到语境的主观因素。主观因素与交际者的主观意识有关,是一种心理现象,是一种认知表征,是语境构成的重要因素。话题是语篇分析中的一个重要概念,是解读语篇的关键所在。话题多以隐性形式存在于语篇中,对它们的解读需要借助语境中的主观因素,来激活相关的认知图式。语境中的主观因素对解读语篇话题有着重要的作用。  关键词:语境中的主观因素;语篇话题;语篇话题解读  中图
期刊
摘要:为探讨超声对渗滤液中有机物的影响,采用超声波处理垃圾渗滤液,发现超声频率,初始pH值,辅助曝气,反应温度和渗滤液初始浓度都有限地影响渗滤液COD的去除率。对UV-Vis扫描光谱和特定波长比值进行分析,认为·OH与芳香性物质反应,优先与羰基、羧基、羟基、酯类等基团,之后与以脂肪链为主的基团反应,最后参与芳香环的破坏。  关键词:超声波;垃圾渗滤液;有机物;UV-Vis  中图分类号:X703文
期刊
摘要:城市地铁建设正逐步进入快速有序的发展阶段,各种类型的地铁事故也时常发生。因此,在隧道基坑工程中需要一种预测方法来合理的避免事故发生。针对上海市轨道交通17号线上的某车站站所产生的深层水平位移问题,运用MATLAB神经网络工具箱仿真并建立SOM神经网络预测模型。实验结果表明, 通过输入已知数据建立的SOM神经网络预测变形曲线与实测位移的绝对误差值在0.123~1.43mm之间,误差值范围小,在
期刊