论文部分内容阅读
随着全球定位系统(Global Positioning System,简称GPS)越来越普遍地运用,考虑到对移动对象(Moving Object)进行定位跟踪,通过GPS获取到移动对象的活动轨迹,并对轨迹序列进行分析研究具有潜在的重大价值。序列模式挖掘(Sequence Pattern Mining)作为数据挖掘的一种重要方法,备受关注。本文实验采用的数据集来自2008年五月的美国旧金山出租车移动数据,主要分布在旧金山湾地区,共包含536辆出租车的GPS坐标数据。(1)作为包含时间和空间两个方面的移动轨迹信息,GPS采集的数据具有数据量大、周期性、噪声干扰严重、缺失性等特点,如何对轨迹数据进行有效地预处理并得到有用的数据,将会直接影响到序列模式挖掘与匹配预测的正确性。本文从数据插值、数据聚类、数据归一化、数据特征表示以及灰色关联分析等方面对数据进行处理,并通过对GPS轨迹停留点的检测与合并方法对轨迹点进行优化,使数据能够高效的进行特征提取,为后续算法提高可靠的轨迹序列。(2)面对基于Apriori算法基本思想的AprioriAll算法、GSP算法以及SPADE算法等以及基于模式增长的算法,包括Freespan算法、Prefixspan算法等,通过对几种算法进行对比分析,本文吸取了模式增长方式不产生候选序列的优点,同时通过对候选序列更加有效地剪枝进行算法优化,有效地提高了模式挖掘算法的效率以及正确性。(3)面对序列模式匹配不准确这一难题,本文提出了FreSeqMatching匹配算法,利用提出的序列类、序列焦点的定义,结合相似度分析的概念,通过对匹配效果及时反馈以及支持度等条件进行及时调整,结合模式挖掘算法,有效地提高了序列模式匹配的精度以及移动对象轨迹预测的准确率。