论文部分内容阅读
近年来移动互联网和智能设备的普及,为基于用户位置的软件应用提供了广泛的用户基础。例如,人们在通讯软件(如微信)和社交网站(如微博)上分享自己的位置,使用轨迹记录软件(如微足迹,行者)记录分享自己的出行轨迹数据,这样就产生了大量的用户位置数据。位置数据和出行轨迹数据都是常见的时空轨迹数据,它们都包括用户、时间和位置三个属性。这些时空轨迹位置数据蕴含了潜在的有用信息,基于用户轨迹的数据挖掘成为数据挖掘学科的新兴分支,在智慧城市、推荐系统等诸多领域有着巨大潜在价值。在轨迹数据挖掘领域,研究人员已经提出了一些研究成果,包括基于位置的推荐系统、目的地预测、轨迹预测、公共交通状况预测、用户隐私保护等。基于用户运动轨迹的数据挖掘在智慧城市和信息保护领域具有巨大的实用价值。在这些实际应用场景中,比较关键的步骤是用户后续位置预测。总体而言,用户位置预测的方法分为四个步骤:用户位置数据采集、历史轨迹数据过滤、轨迹模式提取和用户后续位置预测。数据采集的常见做法是在智能手机上安装记录用户实时位置的APP。由于受障碍物影响,GPS信号减弱容易造成记录位置点的漂移从而产生异常数据,需要在轨迹模式挖掘之前过滤异常数据。轨迹模式提取阶段对用户历史轨迹进行建模,然后根据用户现在所在位置实现后续位置的预测。目前,常见的轨迹模式挖掘方法有基于网格的挖掘方法和基于隐马尔可夫模型的挖掘方法等。然而,现有的方法仅利用了用户历史轨迹中的空间信息,没有充分利用用户出行的时间规律性及包含在轨迹数据中的时间信息。本文在总结前人工作的基础上,仔细研究现有的轨迹模式挖掘及用户位置预测方法,分析现有方法的优势和不足,最终提出了基于出行时空规律性的用户位置预测方法。在轨迹模式挖掘阶段,提出一种称为轨迹模式图的抽象结构,保留了用户历史轨迹的空间及时间信息。在位置预测阶段,提出了基于轨迹时间特性的时间相似性、数据有效性和轨迹周期性三个性质,用于对用户的候选可能位置点进行评分,并给出了相应的评分公式,从而充分利用用户历史轨迹信息,提高位置预测算法的准确度。另外,在历史轨迹数据过滤阶段,本文还提出了一种基于滑动窗口的轨迹过滤算法,可以高效准确地对原始轨迹的异常数据和冗余数据进行识别和过滤。本文最后介绍使用Java语言设计的一个实验仿真软件,实现了本文提出的基于时空规律性的位置预测算法STRP,并与基于Markov模型的位置预测方法、基于网格的位置预测方法和基于隐马尔可夫模型的位置预测方法在两个真实用户轨迹数据集上进行了对比实验。通过调整算法参数观察不同参数取值对预测准确度的影响。通过实验证明,本文提出的方法能够充分挖掘用户历史轨迹中的潜在信息,获得较高的位置预测准确度。