论文部分内容阅读
个体活动链包含了个体活动的时间、位置、次序和活动目的等信息,是理解个体时空行为特征的重要基础。从时空角度理解和分析个体活动链能够为城市人口管理、城市规划、交通分析和流行病防控等众多领域的研究和应用提供重要依据。长期以来,城市中的个体活动链获取往往依赖于居民出行调查。然而,这种问卷调查的形式往往需要耗费大量时间和资源,且更新周期较长,难以应对目前城市的快速发展。近年来信息技术的发展和移动终端的普及使得大量低成本、长周期、易获取的大规模轨迹数据被逐渐应用到个体活动链研究中,并取得了丰富的研究成果。相较GPS数据等轨迹数据,手机定位数据具有样本容量大、采样周期长、实时更新等优势,是一种能够从城市尺度动态反映大规模个体时空活动特征的数据源。 活动停留区域提取和活动目的推断是从手机定位数据中挖掘个体活动链的两个基本环节。然而,一方面,原始手机定位数据的时空分辨率相对较低,且存在震荡点和漂移点等数据噪声,这些因素增加了从手机定位数据中识别停留区域的难度。另一方面,运营商采集的手机定位数据中缺乏个体活动目的等语义信息。尽管近年来已有学者应用非监督学习等方式从手机定位数据中推断个体活动目的,但对于专业领域的学者而言,如何从中显式直观地获取个体活动目的这一信息将更有利于理解个体活动的时空间特征,也是目前个体活动链挖掘的研究重点之一。 针对上述挑战,本研究提出了一种从大规模手机定位数据中挖掘个体活动链的方法。具体地,本研究首先提出了一种基于滑动窗口的增长聚类算法,从稀疏有噪的原始手机定位数据中识别个体活动停留区域。这一算法通过分析时间滑动窗口内的轨迹记录点的空间邻近关系识别震荡点和漂移点等数据噪声,改善从手机定位数据中识别个体活动停留区域的准确率。在此基础上,本研究提出了基于加权概率的活动目的推断算法。通过概率加权的方式,算法结合个体活动停留区域的兴趣点(POI)分布比例等空间特征及活动转移概率等时间特征,计算活动概率矩阵,并使用蒙特卡洛模拟推断个体活动目的。最后,本研究根据算法识别的个体活动停留区域及活动目的等信息,构造个体活动链,支持在此基础上的居民时空活动模式分析。 本研究使用深圳市手机定位数据作为案例数据集,实验结果验证了本研究所提出方法的有效性。实验结果显示:(1)相较于目前常用的ST-DBSCAN算法和SMoT算法,对于时间采样间隔为30分钟以上的手机定位数据,本研究提出的滑动窗口聚类算法有助于改善从手机定位数据中识别活动停留区域的准确率,在准确率方面的提升幅度最大可以达到35%。(2)从手机定位数据中识别的主要活动模式分布比例与居民出行调查数据的大致相同,相对熵差值仅在0.05左右;两套数据在活动模式分布及活动时空分布上的差异主要来源于数据的样本结构及时空分辨率差异。(3)综合活动时空间特征进行推断有利于改善活动目的推断的结果,并且,相比活动时间特征,活动空间特征在深圳市个体活动目的推断中起更为重要的作用。这一结果不仅揭示了个体活动与城市建成环境之间的关联,而且提示在数据资源受限的情况下,仅使用空间特征进行活动目的推断获取的结果也具有一定可信度。(4)手机定位数据规模的增加能够有效改善活动目的推断的效果,减少与居民出行调查数据在活动模式分布比例方面的差异。但数据规模的增加和数据效用存在平衡点,研究者应根据研究问题选择合适比例的数据规模。 本研究的贡献主要包括三方面:其一,针对大规模手机定位数据,提出了一种基于滑动窗口的活动停留区域识别算法,改善了从稀疏有噪的手机定位数据中识别个体活动停留区域的准确率,并在人工筛选标注停留的高频采样通话位置数据集上验证了算法的有效性;其二,针对大规模手机定位数据,提出了一种基于加权概率的活动目的推断算法,并应用大规模主动采样手机数据集验证了算法能够结合活动时空间特征直观地推断个体活动目的,有利于深入理解活动时空间特征在居民活动目的推断中的作用机制;其三,探讨了数据资源对活动链挖掘方法的影响,本研究通过调整活动时空间特征的加权系数,分析了特征缺失情况下的建模问题,同时验证了手机定位数据集规模大小对活动链挖掘的影响,有助于研究者理解不同数据资源条件下的建模。综上,本研究的成果能够为基于手机定位数据挖掘居民活动链提供关键技术支撑,进而促进城市、交通、健康等众多相关研究更加科学可靠地使用手机定位数据这种新型数据源。