基于大规模手机定位数据的居民活动链挖掘方法

来源 :中国科学院大学 | 被引量 : 7次 | 上传用户:kick_78
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
个体活动链包含了个体活动的时间、位置、次序和活动目的等信息,是理解个体时空行为特征的重要基础。从时空角度理解和分析个体活动链能够为城市人口管理、城市规划、交通分析和流行病防控等众多领域的研究和应用提供重要依据。长期以来,城市中的个体活动链获取往往依赖于居民出行调查。然而,这种问卷调查的形式往往需要耗费大量时间和资源,且更新周期较长,难以应对目前城市的快速发展。近年来信息技术的发展和移动终端的普及使得大量低成本、长周期、易获取的大规模轨迹数据被逐渐应用到个体活动链研究中,并取得了丰富的研究成果。相较GPS数据等轨迹数据,手机定位数据具有样本容量大、采样周期长、实时更新等优势,是一种能够从城市尺度动态反映大规模个体时空活动特征的数据源。  活动停留区域提取和活动目的推断是从手机定位数据中挖掘个体活动链的两个基本环节。然而,一方面,原始手机定位数据的时空分辨率相对较低,且存在震荡点和漂移点等数据噪声,这些因素增加了从手机定位数据中识别停留区域的难度。另一方面,运营商采集的手机定位数据中缺乏个体活动目的等语义信息。尽管近年来已有学者应用非监督学习等方式从手机定位数据中推断个体活动目的,但对于专业领域的学者而言,如何从中显式直观地获取个体活动目的这一信息将更有利于理解个体活动的时空间特征,也是目前个体活动链挖掘的研究重点之一。  针对上述挑战,本研究提出了一种从大规模手机定位数据中挖掘个体活动链的方法。具体地,本研究首先提出了一种基于滑动窗口的增长聚类算法,从稀疏有噪的原始手机定位数据中识别个体活动停留区域。这一算法通过分析时间滑动窗口内的轨迹记录点的空间邻近关系识别震荡点和漂移点等数据噪声,改善从手机定位数据中识别个体活动停留区域的准确率。在此基础上,本研究提出了基于加权概率的活动目的推断算法。通过概率加权的方式,算法结合个体活动停留区域的兴趣点(POI)分布比例等空间特征及活动转移概率等时间特征,计算活动概率矩阵,并使用蒙特卡洛模拟推断个体活动目的。最后,本研究根据算法识别的个体活动停留区域及活动目的等信息,构造个体活动链,支持在此基础上的居民时空活动模式分析。  本研究使用深圳市手机定位数据作为案例数据集,实验结果验证了本研究所提出方法的有效性。实验结果显示:(1)相较于目前常用的ST-DBSCAN算法和SMoT算法,对于时间采样间隔为30分钟以上的手机定位数据,本研究提出的滑动窗口聚类算法有助于改善从手机定位数据中识别活动停留区域的准确率,在准确率方面的提升幅度最大可以达到35%。(2)从手机定位数据中识别的主要活动模式分布比例与居民出行调查数据的大致相同,相对熵差值仅在0.05左右;两套数据在活动模式分布及活动时空分布上的差异主要来源于数据的样本结构及时空分辨率差异。(3)综合活动时空间特征进行推断有利于改善活动目的推断的结果,并且,相比活动时间特征,活动空间特征在深圳市个体活动目的推断中起更为重要的作用。这一结果不仅揭示了个体活动与城市建成环境之间的关联,而且提示在数据资源受限的情况下,仅使用空间特征进行活动目的推断获取的结果也具有一定可信度。(4)手机定位数据规模的增加能够有效改善活动目的推断的效果,减少与居民出行调查数据在活动模式分布比例方面的差异。但数据规模的增加和数据效用存在平衡点,研究者应根据研究问题选择合适比例的数据规模。  本研究的贡献主要包括三方面:其一,针对大规模手机定位数据,提出了一种基于滑动窗口的活动停留区域识别算法,改善了从稀疏有噪的手机定位数据中识别个体活动停留区域的准确率,并在人工筛选标注停留的高频采样通话位置数据集上验证了算法的有效性;其二,针对大规模手机定位数据,提出了一种基于加权概率的活动目的推断算法,并应用大规模主动采样手机数据集验证了算法能够结合活动时空间特征直观地推断个体活动目的,有利于深入理解活动时空间特征在居民活动目的推断中的作用机制;其三,探讨了数据资源对活动链挖掘方法的影响,本研究通过调整活动时空间特征的加权系数,分析了特征缺失情况下的建模问题,同时验证了手机定位数据集规模大小对活动链挖掘的影响,有助于研究者理解不同数据资源条件下的建模。综上,本研究的成果能够为基于手机定位数据挖掘居民活动链提供关键技术支撑,进而促进城市、交通、健康等众多相关研究更加科学可靠地使用手机定位数据这种新型数据源。
其他文献
地质统计学(Geostatistics)是极具发展前景的新学科,从它产生至今近五十年的发展时间里,它的应用范围早已突破了地学领域,在医学、环保气象、农田水利、图像处理等许多领域已
Petri网是目前分析动态系统的一种广泛研究和应用的模型,已经建立了坚实的理论基础,并提出了多种扩展模型,如混合Petri网、时态Petri网、着色Petri网、面向对象Petri网、连续Pet
学位
随着E-Science对高带宽和海量数据传输的需求不断增长和光网络的快速发展,端到端基于电路交换的Lightpath网络开始出现,具有广阔的前景。与此同时,现有的传输层协议,包括多数的适
论辩挖掘是一项研究如何从自然语言文本中自动提取出论辩结构的技术。将论辩挖掘技术应用于用户评论中有着巨大的前景:比如应用于推荐系统中,通过分析用户评论给出可解释的推
以中国通量观测研究网络(ChinaFLUX)为基础平台,开展生态系统碳循环集成研究不仅是全球变化科学研究的重要内容,也是我国应对气候变化的重大科技任务。部署在ChinaFLUX中的通量
随着电子信息技术的发展,数字信号处理器(DSP)技术得到了广泛的应用,特别是数据采集和处理领域更能突显出DSP的重要作用。在需要实现光谱信号采集的仪器设备中,使用功能强大
学位
RFID(Radio Frequency Identification,射频识别)公共服务体系用于在各个拥有RFID闭环应用的企业之间建立一套可靠高效的信息共享机制,包括物品的信息定位、跟踪与追溯、信息查询
学位
区别于传统的存储服务,P2P存储系统是通过够聚合网络上的空闲存储和带宽资源来提供存储服务,而不是基于数据中心。这使得P2P存储在当今具有重要的应用价值:一方面,随着数据中心规
学位
现代城市是一个影响因素繁多,内部关系极其复杂的系统。由于城市系统中各变量之间影响关系错综复杂,因此挖掘城市运行变量之间的隐含关系是城市规划领域中的一个重要研究方向
随着当代计算机技术和信息技术的不断发展和应用,数据收集手段越来越多,数据存储量越来越大,如何从海量数据中排除一些不会被用户考虑的信息并找出用户最感兴趣的信息,从而为用户