论文部分内容阅读
人口流动性是经济社会发展的一个重要指标,用来测度人口以流动方式追求经济社会目标而形成的较长时间的自由迁徙和异地生活的状况。依照政府统计口径,流动人口是指在中国户籍制度条件下,离开了户籍所在地到其他地方居住的人口,但目前尚无明确、准确和统一的定义。截止到2016年末,我国流动人口总数约为2.45亿人。经济增长是人口流动的一个重要原因,鉴于流动人口的构成成分复杂、流动周期不确定、流动轨迹多变等原因,我国现有的人口流动性统计存在诸多问题,口径统计不一,数据质量参差,不能满足政府和社会的统计需求,流动人口相关的统计方法和相关制度都亟待改进。本文基于移动通信运营商的即时通话记录数据,以人口行为学特征为基础,从移动通信大数据所表征的用户行为对人口的流动性进行判断和测度,在对流动人口概念进一步界定的基础上,设计了一种将基于机器学习算法构建的流动人口识别模型和基于捕获再捕获抽样构建的人口流动性测度模型相结合来对流动人口规模进行估计的方法。在基于机器学习方法构建流动人口识别模型时,通过对移动通信用户流动人口和本地人口通信行为特征的分析构造了流动人口识别特征变量,利用AUC-RF方法进行了特征变量的选择。在此基础上,本文选择了决策树、Bagging、随机森林、支持向量机以及人工神经网络五种算法进行模型的构建,并通过多种评价标准对模型进行评估和选择,最终选择分类性能和泛化能力最优的随机森林模型作为最终的流动人口识别模型,对样本集中的未分类样本进行了分类预测。在构建基于捕获再捕获抽样的流动人口规模测度模型时,实证表明该估计方法能比较准确可靠的对地区流动人口规模进行估计。因此本文得出结论认为,本文设计的基于移动通信大数据的人口流动性测度方法与传统的流动人口调查方法可并行使用,相互补充,相互印证。本文希望在移动通信大数据的基础上,对改进我国流动人口统计调查探索一个基于大数据思想的统计方法和制度,依托同时期的移动通信记录数据,利用科学的统计推断方法,对流动人口的规模和特征进行估计和外推,从而得到更加精确和完整的人口统计数据。实证检验表明,本文设计的方法成本低、速度快、精度较高,非常适合于对我国现行的统计制度进行改进和拓展。