论文部分内容阅读
我国是滑坡灾害较为多发的国家,滑坡不仅损害社会资源,而且威胁人民的生命及财产安全,因此寻求能够减轻甚至规避灾害损失的滑坡危险性预测方法极具现实意义和应用价值。而滑坡主要诱发因素降雨量的不确定性往往会给滑坡预测带来一定困难,如何有效处理不确定数据并在此基础上设计出有效的滑坡危险性预测方法是本文研究的重点。数据挖掘中的聚类算法经常被用于滑坡危险性预测,传统聚类算法通常指无监督的聚类算法,它在不利用任何已知信息的条件下根据数据间的相似性实现数据集的划分,使得同一个类中的相似性高,不同类间的相似性低,但是由于该方法在滑坡危险性预测应用的过程中完全忽略应用中给出的少量先验信息,仅在聚类结束后利用先验信息对聚类结果赋予意义,因此这种方法的预测精度整体偏低,且会导致有些类没有实际意义。基于此,考虑到在滑坡危险性预测实际应用中通常易获得少量的先验信息的实际情况,为充分利用给出的先验信息,本文首次提出把半监督聚类方法应用于滑坡危险性预测的设想,并以较成熟的基seeds集的半监督K-means算法为基础,首先通过seeds集的消噪和空间扩展实现seeds集优化,其次以seeds集作为初始类引导数据集进行相似性的聚类划分,并进一步通过设置引入隶属度概念,通过隶属度阈值实现了数据的高质量划分,有效提高了算法性能。滑坡的影响因素通常有多种,其中主要诱发因素之一的降雨量为不确定属性,其取值表现为不确定数据,而传统的方法难以准确衡量不确定数据间的相似性,因此,为了能有效刻画不确定降雨量的相似性进而实现危险性预测的有效聚类,在改进半监督K-means算法提出之前,本文首先提出了一种新的不确定数据距离,借鉴均匀分布的不确定数据距离--Hausdorff距离的思想,延伸出了一种适用范围更广的不确定距离-uv距离,以此作为改进后的基于seeds集的半监督K-means算法中不确定数据的相似性的度量标准。最后将基于uv距离的改进半监督K-means算法应用于滑坡危险性预测,建立了一种半监督的滑坡危险性预测模型,将该模型应用于延安宝塔区域内,进一步通过对比实验分别验证不确定uv距离衡量不确定雨量的有效性、半监督聚类相较于无监督聚类在滑坡危险性预测中的良好性能,以及改进的半监督k-means算法对比于传统半监督K-means算法的更优性能,以及seeds集优化方法在滑坡危险性预测上的作用。