论文部分内容阅读
近年来,移动对象跟踪技术迅猛发展,同时获取和存储与此相关的时空数据的能力也大大增强,导致了众多专业领域在极其短暂的时间内,就积聚下海量的移动对象时空轨迹数据。这些海量数据已远远超出了人类可直观理解的范围,并且由于这类数据同时具有时序属性和空间特征,现有的很多方法和技术不能直接加以利用,迫切需要研究和探索新的理论和新的方法。在此背景下,本文提出了基于有趣地点压缩的移动点对象时空轨迹聚类研究。从时空轨迹表示、相似性度量和聚类方法等相关问题出发,对国内外相关的研究进行了梳理与分析。在形成文献综述的基础上,开展了如下研究工作:第一,在时空轨迹表示方面,对移动对象的行走速度进行排序,选取合适的参数值,改进传统聚类方法DBSCAN(a Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise),用以提取每条轨迹上具有应用领域语义的有趣地点,然后利用有趣地点序列来表示原始轨迹,在最大程度保留核心信息不流失的前提下,极大压缩了轨迹数据量。第二,在时空轨迹相似性度量方面,分别从空间相似、时间相似和时空相似三个角度进行分析与设计。在度量由有趣地点序列表示的轨迹距离时,两个对应有趣地点间的距离采用路网空间中的最短路径;空间相似性度量分两个层次:有趣地点集合相似和有趣地点序列相似。在时间相似性度量的设计中,提出了面向层次类型变量的相异度度量方法。相同的层次类型变量,由于不同的分层标准在层次结构树中的位置会发生变化,针对这种情况,提出了在各种分层标准下层次型变量相异度计算方法,把它们之间的和距离作为最终相异度计算依据;最后还设计了一个时空属性和空间特征相结合的移动对象时空轨迹度量公式。第三,在时空轨迹聚类阶段,围绕着如何有效识别不同行走速度的移动对象群体,提出了基于可逆跳跃马尔可夫链蒙特卡罗(RJMCMC, Reversible Jump Markov Chain Monte Carlo)的AP (Affinity Propagation Clustering)聚类算法。AP聚类算法不需要事先定义聚类中心,它是根据两个数据点之间的相似度为聚类基础,在算法开始时将所有的数据点都视为潜在的聚类中心。通过迭代循环不断进行证据的搜集和传递(亦称为消息传递),以产生高质量的类代表和对应的聚类,使得聚类的能量函数最小化,然后将各数据点分配给最近的类代表所属的类,即得出了聚类结果。在密度同质的数据集中,AP聚类方法可以快速准确地得到聚类结果,但不能处理一个数据集中存在的不同密度类型的情况(比如行人、自行车和汽车同时存在的情况)。针对此问题,本文提出先利用可逆跳跃马尔可夫链蒙特卡罗(RJMCMC)的方法把移动对象根据不同的行走速度进行分类,然后在各个密度类型的数据子集中再运行AP聚类算法。这种设计解决了现实中出现的不同密度嵌套的数据集聚类问题。第四,应用本文所提出的时空轨迹聚类体系,对时空移动数据生成器Generator生成的模拟数据进行了实例分析,并将本文获取的聚类结果与传统方法求解结果进行了比较,结果表明:针对不同轨迹长度和无规律采样获取的时空轨迹数据,本文提出的方法可有效对其进行聚类,并且得到的结果更具可解释性。最后,就如何有效获取不同时间粒度和空间尺度下移动对象的运动规律,如何从“流”的角度改进传统时空邻近度的概念,如何在时空相似性度量中进行时间和空间两者间的换算,如何将聚类结果与时空可视化技术相结合等方面,提出了进一步的研究展望和建议。