论文部分内容阅读
随着互联网技术的发展和移动终端设备的普及,通信数据的体量呈爆炸式增长,这些数据蕴藏了极大的潜在价值,为研究城市空间理论和挖掘人类移动模式提供了可靠的数据保障。合理划分城市区域,并明确区域之间的联系,对城市规划有重要价值。明确用户出行需求可减轻交通系统负担,改善交通环境,为制定交通控制系统的调度策略提供重要依据。本文基于用户移动网络数据,针对区域划分及区域联系、用户出行需求进行了相关研究,具体如下:(1)区域划分及区域联系分析研究特征提取方法与聚类算法,对城市区域进行了划分,并提出了分析区域间联系的相关模型。首先,构建基站流量的时间序列,并对时间序列从统计学、时域、频域三个方面提取了54维特征。其次,运用k-means++算法得到基站的功能类别。结合基站的地理位置特征和基站的功能类别,进一步运用k-means++算法将城区划分成400个功能区。再次,调用百度地图API,获取各个区域的兴趣点(point of interest,POI)信息,对每个区域进行功能区判定,并与本文的分区结果进行对比,得到分区的平均准确率为77.7%。最后,考虑区域中人群的迁入量、迁出量以及区域间的距离,提出基于人口迁移的牛顿引力模型,对区域间的联系进行了分析,并在此基础上研究了区域的重要程度。(2)用户出行需求预测研究统计学和机器学习中的模型,对用户出行需求进行预测。首先,针对每条路线构建用户出行时间序列。为应对城市中复杂的道路结构,本文提出按照人群的出行频度,将路线分为三类:频繁路线、普通路线和稀疏路线。其次,对所有路线构建统计学中的自回归移动平均整合模型(Autoregressive Integrated Moving Average Model,ARIMA)。运用滑窗法对用户出行时间序列进行处理,构建训练集和测试集,并建立三种机器学习模型:支持向量回归(Support Vector Regression,SVR)、梯度提升树(Gradient Boosting Decision Tree,GBDT)、随机森林(Random Forest,RF)。上述四种模型建立之后,分别用其进行用户出行需求预测,即预测每条路线在各个时段的用户出行量。再次,选用平均绝对误差(Mean Absolute Error,MAE)和均方根误差(Root Mean Square Error,RMSE)作为误差指标,对比分析预测结果。结果表明,GBDT模型的预测性能最优,其频繁路线、普通路线和稀疏路线下的平均MAE、平均RMSE分别为(1.479,2.132)、(1.549,2.156)和(1.278,1.745)。最后,将预测结果进行可视化展示。