论文部分内容阅读
时间序列数据是一种常见的数据形式,普遍存在于日常生活的各个领域,与我们的生活工作息息相关。发现生活中的一些潜在的规律,并应用于商业活动,因此对时间序列深入研究具有重要意义。时间序列定义的范围比较广泛,不仅包括随时间变化的序列,还包括具有一定逻辑关系的序列。在时间序列分类问题(Time Series Classification,TSC)领域,公认的基线模型为基于动态时间规整的最近邻算法。最近两年基于全卷积网络的时间序列分类模型表现突出,明显优于其他方法。因此,本文主要围绕时间序列分类问题和全卷积方法,进行了模型改进和优化,并提出了多尺度全卷积网络、交叉聚类数据变换、基于分段的时间序列预测方法。本文主要贡献如下:1)由于对时间序列分类起作用的特征尺度是不固定的,因此单一的全卷积网络不能够有效的提取不同尺度的特征。针对此问题,本文提出了一维多尺度全卷积网络MFCN,使得全卷积网络FCN能够检测多种尺度的序列特征,进而提升模型的分类准确度。相比于最近几年比较优秀的十个时间序列分类模型,在44组UCR数据集中,本文提出的MFCN模型分类性能最好。2)提出交叉聚类算法,该算法与传统的聚类算法的区别在于认为一个实例可以属于多个簇,允许簇与簇之间存在交叉。与软聚类不同在于交叉聚类不需要计算隶属度,直接以实例间相似距离进行聚类。这种聚类算法的一个重要应用是进行数据变换,通过提取簇中心点代表该簇的方式对原始数据进行变换,相比于其他聚类算法交叉聚类算法可以降低数据的压缩比率。3)交叉聚类数据变换后的时间序列的数据特征更加明显,可以提升时间序列分类模型的性能。试验表明,在不改变数据维度下,该变换对于时间序列分类有显著作用,一是提升了时间序列分类模型的分类准确性,二是降低了训练的时间复杂度,三是对神经网络FCN的分类起到了减弱过拟合的作用,提升网络训练的准确率的同时加快了网络的训练。4)提出了时间序列的分段特征提取方法,分别对FCN和LSTMFCN网络进行了改进,加入了分段机制,得到了Sub-FCN模型和SubFCN-LSTM模型。通过在UCR数据库中的多个时间序列数据集上进行试验验证,结果表明Sub-FCN和Sub-FCN-LSTM分别比FCN和LSTM-FCN具有更好的拟合能力和更好地泛化准确率,能够更快地学习样本中的数据。综上,本文主要对时间序列分类任务进行了研究,提出了对时间序列有效的数据变换方法,可以提升监督模型的性能。为了避免卷积结构的平移不变性,保证时间序列的局部信息有效性,提出了分段全卷积并联LSTM的模型。以及提出了增强全卷积网络特征提取能力的多尺度全卷积网络。