论文部分内容阅读
随着移动通信设备的普及和GPS定位技术的迅速发展,获取用户及车辆在移动过程中产生的轨迹数据手段越来越丰富。海量轨迹数据背后蕴含的价值引起了学术界广泛的研究,也取得了大量研究成果。特别是随着基于地理位置服务的手机应用软件不断涌现,准确、可靠地挖掘轨迹数据中的知识模式给用户带来更加良好的体验显得尤为重要。本文主要从两个方面挖掘轨迹数据:第一,提出了一种基于LDA(Latent Dirichlet Allocation)主题模型的电信轨迹恢复算法;第二,提出了两种预测稀疏轨迹终点的方法。主要研究工作如下:(1)针对当前的轨迹缺失恢复算法大多需要引入路网数据,而获取路网数据较为困难的问题,本文提出了基于LDA主题模型的电信轨迹恢复算法。通过将用户电信轨迹在时间和空间上进行预处理,映射生成时空单词矩阵。再对该矩阵划分训练集和测试集,将电信轨迹恢复问题转化成矩阵缺失补全问题。实验结果表明,使用LDA主题模型的电信轨迹恢复精度比传统矩阵补全NMF(Non-negative Matrix Factorization)算法在F1-score@5上提升了17%,训练时间减少了37%。(2)针对大多数传统轨迹终点预测算法都是通过计算轨迹之间的相似度来预测给定轨迹的终点,忽略了轨迹数据时间序列之间的前后联系,导致预测结果误差较大的问题。因此,提出了一种基于马尔可夫模型的稀疏轨迹终点预测算法。同时,针对移动对象运动的样本空间提出了基于K-d tree的网格划分方法。实验结果表明,相比轨迹相似度算法,基于马尔可夫模型的轨迹终点预测算法精度提升了46%。(3)针对传统LSTM模型预测轨迹终点算法,忽略了轨迹终点分布先验知识和只利用了轨迹单个方向变化的信息,导致训练过程困难且不能充分利用轨迹数据上下文信息,预测精度较低的问题。本文针对传统LSTM模型预测轨迹终点算法存在的两个缺陷分别进行改进。第一,利用Mean Shift聚类算法对训练集中轨迹的所有终点聚类,将城市划分成若干个区域和对应区域的中心点位置,再在传统LSTM模型后面加上Softmax层,预测得到属于每块区域的概率,通过概率和对应区域的中心加权求和得到预测轨迹终点;第二,将传统LSTM模型中的单向LSTM替换成双向LSTM,可以更加有效地学习轨迹数据中的上下文信息。实验结果表明,相对只考虑上一个时刻状态的马尔可夫模型和传统LSTM模型,改进LSTM模型预测轨迹终点的算法在精度上分别提升了13%和28%。