论文部分内容阅读
随着城镇化进程的快速发展,城市人口的持续增长和快速集聚给城市的精细化管理带来了诸多挑战。上海作为我国典型的特大型城市,其发达的经济水平带来了庞大的人口基数,相比于中小型城市人口分布状况更为复杂。在严峻的人口发展形势下,开展城市人口空间分布的精细化监测对于提高城市综合管理水平和辅助智慧城市建设有着重要的现实意义。对城市人口进行精细化监测的基础是能够快速准确地获取人口空间分布数据。本文在梳理归纳已有研究成果的基础上,通过融合多源高精度数据,以传统空间回归模型和先进的机器学习算法为依托,获取了上海市2010年500m格网尺度的精细人口分布数据。通过选取土地利用、夜间灯光、兴趣点、道路和建筑房屋信息等多种空间数据,提取了如土地利用类型面积占比、夜间灯光亮度、兴趣点密度等与人口分布密切相关的特征。在以多重共线性诊断结果为依据进行建模特征筛选后,分别建立了基于空间滞后回归和随机森林的人口空间化模型,并利用创建的随机森林训练模型对上海市2017年的人口分布情况进行了预测。通过建立由定性和定量两个维度构成的精度验证体系,对两种人口空间化模型进行对比分析,并根据模型特点对二者进行了综合评价。在此基础上,从特征重要性、分箱特征与人口分布的关系以及特征贡献三个角度对模拟精度较高的随机森林模型进行了详细的解释与分析。本文的主要研究结论为:(1)基于多类别辅助因子和空间滞后回归方法构建的人口空间分布模型整体拟合效果较好,R~2为0.86。精度验证结果表明,基于空间滞后模型的人口空间化结果相较于LandScan和CNPOP数据集具有更高的模拟精度,但相比于GPW和WorldPop人口数据集略有逊色。(2)基于多维特征库和随机森林算法构建的人口空间分布模型整体拟合效果相较于空间滞后模型有了较大提升,R~2达到0.98。精度验证结果表明,基于随机森林模型的人口空间化结果相较于验证数据集模拟结果优势明显。采用相同特征向量,基于训练模型的上海市2017年人口分布预测结果在区县尺度上各项精度评价指标均优于验证数据集,取得了较好的预测效果。(3)两种人口空间化模型的定性分析结果表明,空间滞后回归模拟结果中人口的分布表现出集中连片的特点,而在随机森林模拟结果中多以聚集点的形式存在,表现出更多的细节信息。两者在街道层面的估算人口数与统计数据线性回归R~2分别为0.46、0.71。定量分析结果表明,随机森林模拟结果精度更高,研究区内人口低估和高估现象均有明显改善。在低、中、高三种人口密度等级下,随机森林模型精度均优于空间滞后模型,并且在上海市中心城区等高人口密度区域提升幅度最为显著。(4)随机森林模型解译结果表明,在参与建模的特征中,到餐饮、生活服务和教育三类POI的距离、POI密度、夜间灯光亮度、小区房屋户数和建筑年数是重要性较高的特征。这些重要特征对于模型的贡献有正有负,随着特征值的增大呈现出不同的变化规律,并且表现出明显的空间分异特征。综上所述,本文研究了利用多源高精度数据获取精细格网尺度人口空间化数据的方法,对比分析了不同人口空间化模型在相同建模因子下的拟合效果,可为大数据背景下融合多源数据的人口空间化研究提供新的思路和方法。