论文部分内容阅读
随着时空轨迹数据挖掘的快速发展,轨迹数据异常值检测已成为数据挖掘领域的研究热点。传统的异常检测方法在检测轨迹数据异常值时很多都基于欧式空间环境,将异常值表示为远离大部分一定距离的点。但在交通事件应急响应等方面的实际应用中,交通出行分布异常的检测主要通过交通流量的变化进行判断,对传统异常检测算法中采用的欧式距离来度量异常的方法不再适用。此外,交通轨迹数据量庞大,使用传统的、单机运行的异常检测方法运行效率也较低。在本文中,利用MapReduce分布式并行计算框架,提出了一种基于MapReduce的分布式并行城市交通出行分布异常检测和分析算法。具体工作如下:(1)为了能更好的描述交通出行分布情况,本文提出了一种基于小区交通流量的城市交通出行分布模型。该模型较为简单且容易理解,能够从宏观上展现整个城市的交通出行分布状况。(2)针对交通出行分布异常检测问题,本文结合交通领域知识,在城市交通流量分布模型的基础之上提出了基于小区交通流量的交通出行分布异常定义,并给出了形式化的表示方法。(3)在上述工作基础之上,本文提出了一种基于MapReduce的分布式并行交通出行分布异常检测和分析算法(MapReduce-Based Distributed ParallelTransportation Distribution Outliers Detection And Analysis Algorithm,简称MDPTDODA)。该算法首先对出租车轨迹数据进行预处理,然后从出租车轨迹数据中提取经过小区之间的交通流量并建立基于小区交通流量的城市交通出行分布模型。最后整合该分布模型中连续多天的交通流量,构建时间序列集,通过DBSCAN聚类算法和动态时间扭曲距离(Dynamic Time Warping,简称DTW)进行交通出行分布异常检测,并根据异常之间的关系分析异常引起的可能原因。本文以北京市出租车历史轨迹数据作为原始数据,在单机多核环境和基于Hadoop的集群环境下分别对试验算法的单机版本和分布式并行版本进行了实验,证明了本文提出的MDPTDODA算法在分析处理大量轨迹数据时的高效性。同时,本文将实验结果与历史实际情况进行了对比,结果表明该方法在异常的检测和分析方面是有效的。