论文部分内容阅读
车辆GNSS(Global Navigation Satellite System)轨迹数据,是城市地理信息系统重要数据来源之一,在城市结构、城市规划、交通分析及居民出行等方面有巨大的应用前景。公共车辆的GNSS轨迹数据在城市地区具有覆盖面广、周期性好、数据量大等优点,但同时存在定位精度低、采样频率低、质量高低不一等缺点。数据滤波是轨迹数据挖掘不可缺少的前置处理过程,以往工作偏重单条轨迹处理及离群点识别,而对车辆轨迹中隐含的连续轨迹点的整体偏移情况和采样频率低导致的“假轨迹”严重偏离道路的情况重视不足。本文着重针对这两类异常进行深入研究,不依赖于路网等辅助数据,检测出整体偏移的连续轨迹点和低采样频率导致的低质量轨迹片段,以提高轨迹数据质量。本文的主要研究内容包括: (1)针对公共车辆GNSS轨迹数据的时空特征,结合车辆移动特征与城市环境,对各异常数据的空间分布、时间间隔以及可能产生的原因,进行了较为详细的统计分析,并据此对轨迹数据的异常进行了定义和分类,即“团状”、“星状”、偏移异常、“假轨迹”线段四类。对“团状”和“星状”异常进行处理,去除大量冗余和滤除极端偏离点,在此基础上对后续两类异常数据进行检测。 (2)针对车辆GNSS轨迹中的连续轨迹点的整体偏移情况,提出一种基于核密度方法的识别模型进行检测。先沿待判断点方向的垂直方向做剖面,计算得到剖面上核密度空间分布,再利用朴素贝叶斯计算待判断点属于附近高密度峰值(潜在的道路位置)的概率,最后利用区间估计法进行异常检测。 (3)针对由采样时间间隔长导致的“假轨迹”线段,提出一种基于统计推断的线段识别模型进行检测。先利用基于信息熵的最大似然分类法判断线段端点的位置类型,再对端点方向和线段密度进行估算,最后基于推断模型检测异常线段。 本文以北京市2012年11月出租车数据为例,对上述方法进行了实验验证。数据集采样时间间隔为主要在10-60秒之间,发现团状、星状异常数据占数据集的32.21%,异常轨迹线段占6.23%,十分有效地去除了冗余,提高了数据质量,为轨迹数据时空挖掘奠定了基础。