论文部分内容阅读
滑坡是一种十分严重和普遍的全球性自然地质灾害。在我国滑坡灾害的发生情况极为严重,滑坡灾害每年都会给我国带来巨大的财产损失和人员伤亡,影响发生滑坡区域的基础设施建设和经济发展。因此筛选发生滑坡地区的诱发因素,发现诱发因素对滑坡的影响并根据诱发因素对滑坡数据进行正确的分类预测,有助于滑坡灾害的防护工作。随机森林算法(Random Forest,RF)从提出至今一直备受青睐,是一种非常方便且易于使用的算法。因参数少,不易过拟合等优点,被许多专家学者广泛地运用于分类和回归问题。但在处理非平衡数据时,随机森林算法不能很好地对少数类作出预测,导致最终分类结果与实际结果存在较大误差。而且算法参数的选取直接影响最终的分类结果,因此寻找合适的参数组合对随机森林模型也非常重要。因此,本论文提出相关改进算法来解决传统随机森林算法在不平衡数据和参数选择方面的问题。论文主要完成工作如下:(1)简述随机森林算法的基本原理及实现步骤,详细介绍随机森林算法的研究现状与研究热点,总结随机森林算法目前存在的问题并提出自己的改进思路。(2)提出了一种基于自适应步长人工蜂群算法(Adaptive Step Size Artificial Bee Colony,ASSABC)进行参数寻优的不平衡准确率加权随机森林算法(Unbalanced Accuracy Weighted Random Forest,UAW_RF)。结合决策树寻优、抽样筛选和加权投票思想,提升随机森林算法在非平衡数据上的分类能力。引入自适应步长和最优解对人工蜂群算法(Artificial Bee Colony,ABC)中的位置更新公式进行改进;然后利用该算法在优化问题方面的优势对随机森林算法中的参数组合进行迭代寻优;最后,选取KEEL数据库中的segment0不平衡数据集和KDD CUP 1999数据集按照不同类别形成的不平衡二元分类数据集中的三个数据集进行算法性能比较实验。通过实验证明了UAW_RF算法的可行性。(3)实例验证。溜石坡是中巴公路北部发育的一类特殊高寒高山冰川地带滑坡地质灾害类型,时常造成中巴公路交通中断。将改进后的算法应用于溜石坡数据集分类预测研究,实验选取中巴公路乌鲁木齐-红其拉甫盖孜河谷段沿线两侧2公里范围的溜石坡区作为研究区。利用ArcGIS软件从研究区的位图和遥感图像中提取高程、坡度、土壤类型和降雨等11个属性的数据,对这11个属性进行分析并运用改进之后的算法对溜石坡数据进行分类预测。最后与逻辑回归,K近邻和XGBoost算法在此数据集上作性能比较。通过实验表明利用自适应步长人工蜂群算法进行参数寻优之后的UAW_RF模型在溜石坡数据集上分类性能有所提高。并且比逻辑回归,K近邻和XGBoost算法在研究区溜石坡数据集上分类能力要好。由此可得出结论,此方法可为中巴公路乌鲁木齐-红其拉甫段溜石坡灾害的防护工作提供一定的决策支持。