论文部分内容阅读
随着无线通信系统的快速发展和广泛应用及智能手机的普及,获取用户的位置信息已经变得越来越容易。海量的定位数据中蕴含了大量时间序列信息,这些数据具有时间上的连续性和空间上的相关性,利用这些信息可以对定位数据进行分析和预测。定位数据能反映出人群密度的变化情况,预测定位数据对人群异常事件的检测和安防部署预警都具有重要意义。本文主要使用腾讯公开的定位数据,首先对采集到的数据进行分析和预处理,然后研究ARIMA(Autoregressive Integrated Moving Average Model)等基本的时间序列预测模型,并在基本的时间序列预测模型基础上研究多步预测策略和分层预测算法,随后分别建立基于GBDT(Gradient Boosting Decision Tree)和LSTM(Long Short-Term Memory)的预测模型并进行优化和实验,最后将定位数据的预测应用于人群异常事件检测和安全部署预警任务。本文的主要工作和贡献有:(1)优化基于GBDT的预测模型。提出基于GBDT的Moving Normalization机制并针对GBDT模型特点进行特征设计。在基于GBDT的预测模型中,当数据分布产生变化的时候,基于树的GBDT模型很难快速学习到数据的变化,因此本文提出Moving Normalization机制,通过对输入数据进行归一化和对预测结果进行重新分布来解决这个问题。通过实验得出本文中提出的GBDT中的Moving Normalization机制在数据分布未发生变化时非零数据平均绝对百分比误差由14.9%变为16.8%,误差增加不显著,在数据分布发生变化时非零数据平均绝对百分比误差由24.9%下降到17.5%,误差降低显著,说明Moving Normalization机制能有效解决GBDT在数据分布发生变化时难以学习到这些变化的问题。此外由于GBDT模型很难自动提取空间特征和抽象模式特征,因此本文设计了适合GBDT模型学习的时间序列相关特征并使用聚类和卷积来提取定位数据的空间信息。实验表明增加本文设计的时间序列特征和空间特征及聚类信息相对于只使用原始数据进行预测,非零数据平均绝对百分比误差由18.5%降低到14.9%,说明本文设计的特征能有效降低预测误差。(2)优化基于LSTM的预测模型。在基于LSTM的模型中尝试使用双向LSTM结构并引入Batch Normalization机制。在基于LSTM的预测模型中,针对神经网络容易梯度弥散等问题本文尝试在LSTM中引入Batch Normalization机制并实验了双向LSTM结构的效果。实验表明双向LSTM结构将预测的非零数据平均绝对百分比误差由1 9.4%降低到18.4%,能有效降低预测误差。(3)进行了定位数据预测算法的应用研究。设计了一套应用系统,该系统能够自动完成数据预处理、训练特征提取、定位数据预测和基于预测结果的安防部署预警和异常事件监测功能。应用了定位数据分层预测策略,将定位数据预测问题建模为分层数据预测问题,设计了分层一致误差损失函数。研究了多步预测策略,应用多步预测策略,将模型的单步预测结果转换为多步预测结果。