论文部分内容阅读
近几年,随着海上船舶信息采集技术的发展,船舶轨迹数据积累得越来越多,大量轨迹数据蕴含的信息也逐渐受到关注。在远洋运输市场上,航行时间和油耗都与盈利息息相关,根据船舶轨迹数据和船舶自身属性信息对航线类型进行分类预测从而推断航行时间和油耗,将对船舶营运产生积极影响。针对船舶轨迹数据的分析与预测方法的研究越来越受到重视。传统的聚类、分类等数据挖掘算法的处理对象都是独立的数据,而船舶轨迹数据具有时间和空间上的连续性。目前对于船舶轨迹的数据挖掘大部分都是基于位置点的挖掘,忽略了轨迹数据在时空上的连续性以及不同运动模式(如不同的速度或航向)的划分和识别,不能反映船舶行驶中速度及航向的动态变化。同时,大多数船舶轨迹预测方法主要基于历史船舶轨迹数据,忽视了船舶自身属性及航运市场的动态变化对船舶未来行驶轨迹造成的影响。本文基于船舶轨迹的特点,提出了面向船舶轨迹数据的聚类算法并根据船舶的属性、航运市场状态以及上述聚类得到的船舶轨迹类型对船舶未来的行驶轨迹进行分类预测。本文的研究具体包括如下几个方面:(1)针对海上船舶轨迹的特点,提出一种船舶轨迹聚类的算法。首先对数据信息进行预处理,随后根据速度的变化对轨迹数据进行了轨迹分段,达到数据压缩和轨迹数据特征提取的目的。为了计算轨迹之间的相似性,算法使用动态时间规整算法对子轨迹段进行匹配,匹配子轨迹段之间的结构化距离之和为两轨迹之间的距离。最后,针对轨迹数据密度分布不均匀的特点,提出了自适应密度聚类算法(Adaptive Density Clustering,ADC)对轨迹数据进行聚类。(2)根据上文中船舶轨迹聚类的结果以及船舶轨迹类型的影响因素,建立船舶未来行驶轨迹的分类预测模型,该模型使用船舶自身属性及航运市场的状态数据作为输入,输出为船舶未来行驶轨迹的类型,从而达到对船舶行驶轨迹类型进行预测的目的。其中船舶轨迹的类型依据是上文中对船舶轨迹聚类的结果。该模型使用了改进的多分类的 Logistic 回归算法(Improved Multiple SoftMax,IM-SM)。该算法针对多分类模型中类间识别度较低的问题,加入了类间识别度参数,使得模型在训练过程中有效地加大了类间的识别度从而提高了船舶未来行驶轨迹分类预测模型的预测准确率;针对数据不平衡问题,对传统Logistic回归分类算法的损失函数进行修改,使得模型在训练过程中综合考虑了训练数据的特性,从而提高模型的分类效果。