论文部分内容阅读
随着传感器网络、全球定位系统(Global Positioning System,GPS)和无线通信等技术的不断发展及普及,应用服务器中积累了大量移动用户运动轨迹的时空数据。通过对用户历史轨迹数据进行分析,可以发现许多用户频繁地在固定的时间区间内总是访问固定的地理区域。从移动用户历史轨迹中挖掘隐含的、有效的时空频繁模式是数据挖掘领域中一个重要的研究课题,对诸如压缩移动数据、实现移动对象的分析和预测、为用户提供个性化的位置服务、发现区域社会行为规律、交通管理决策和商业推广等具有重要作用。针对移动轨迹的热门区域发现算法忽略密集到访时间的问题,结合时间属性和空间属性,对轨迹数据的时空频繁模式挖掘展开研究。首先,分析现有停留区域识别方法及存在的问题,在已有方法的基础上提出一种改进的自适应多粒度停留区域识别方法,该方法先对用户轨迹进行分段,然后区分步行段和非步行段,最后使用能满足不同空间粒度的Clustering II算法对步行段聚类。识别出的停留区域将作为下一步的频繁时空项挖掘的基础。其次,集成时间和空间属性提出时空项和频繁时空项的概念。频繁时空项可以表示用户频繁在哪个时间区间到访哪个地理区域,提出一种基于3D网格的频繁时空项挖掘算法。该算法主要分为三步:第一、生成时空项。通过基于密度的聚类算法识别出用户的停留区域并对用户id、停留区域、停留时间段各元素进行表示,进而生成时空项。第二、将时空项映射到3D网格。将包含经度、纬度、时间的时空项映射到事先设定的集成时间和空间维度的3D网格中,并记录每个单元3D网格的支持度。第三、提取合并相邻单元3D网格生成频繁时空项。提取满足用户定义最小支持度的单元3D网格并将相邻的单元3D网格进行合并,进而生成频繁时空项。最后,在真实轨迹数据集上进行实验,实验结果表明,本文提出的方法能够从时空轨迹数据中挖掘出不同支持度的频繁时空项,该时空频繁项能够正确反映出用户频繁在哪个时间区间到访哪个地理区域,并且具有较好的性能。