论文部分内容阅读
云南省位于中国西南边陲,全省总人口超过4700万,总面积约为39万平方千米,全省下辖8个市、8个少数民族自治州,是中国连接东南亚各国的桥头堡。利用省内独特的旅游资源、农业资源、矿山资源和与东南亚国家的贸易往来,云南省经济发展速度近些年一直名列前茅,但与此同时云南省发生泥石流、山体滑坡等地质灾害不仅次数还是规模上都在不断增长,经济发展受制于泥石流、山体滑坡等灾害的发生。云南处于云贵高原的高原的多山地貌,且全省从北向南成阶梯下降式,最高和最低的高度差高达6000m以上。在雨汛期,云南省常常受到大面积的降水影响,且近些年因为山林资源的过度开发与地下资源的过度开采,自然因素加上人为因素的双重影响致使山体滑坡、泥石流等地质灾害频发。从1953年到2014年总共因为泥石流、山体滑坡造成的死亡、失踪人数就高达1万余人,因灾害受伤人数也达22万5千人,直接经济损失80亿人民币。如计算由此造成的间接经济损失,数额将是惊人的几百亿人民币。本文通过收集了1998年到2011年间云南省各个县区发生泥石流、山体滑坡的相关数据,用灾害系数来描述相关经济损失(灾害系数=直接损失/当年区县的GDP)作为被解释变量,灾害等级、受灾区县当年的年平均降水量、受灾区县的人口密度、受灾区前三年共计发生此类灾害的次数总共四个作为为解释变量,然后建立模型对泥石流、山体滑坡对云南省经济影响做实证分析。首先文章利用传统的统计模型分析被解释变量(灾害系数)与解释变量(灾害等级、受灾区县当年的年平均降水量、受灾区县的人口密度、受灾区县前三年共计发生此类灾害的次数)之间是否存在相关性,结果表明灾害系数与受灾区县的人口密度存在强负相关以外,与其他解释变量并无强相关性,且从R-squared检验和建立Q-Q图分析得出该数据不符合传统统计模型建模的条件,故采用机器学习的方法。其次,传统的统计模型在面对复杂的数据时常常束手无策,难以用某个确定的分布函数来做假定。这时没有任何假定条件且基于算法的机器学习方法就体现其独特的优势。本文分别利用机器学习方法中的决策树回归、人工神经网络回归、支持向量机回归、Adaboost回归、随机森林回归这些常用的机器学习方法对数据进行分析,并且通过五折交叉验证验证机器学习方法的准确信。最后,分析结果表明随机森林回归是所有模型中最优的,利用该模型对灾害系数进行合理的预测,对云南省原有的防灾、减灾体系上提出一些科学性建议。