论文部分内容阅读
时间序列分类是时间序列研究的关键部分,为了高分类的准确率以及算法执行的效率,本文出了基于特征采样的时间序列分类方法。时间序列数据往往具有不等长的特性,常规的机器学习以及深度学习方法无法直接应用于时间序列分类问题。传统的时间序列分类算法主要有两种,一种是基于距离的算法,通过设定距离函数,找到与给定时间序列最相近的查询序列,另一种是基于特征取的算法,通过取时间序列的主要特征信息来进行分类。特征取方法相比于基于距离的分类方法,具有分类准确率高的优点,但是需要花费大量的时间进行特征取,如何设计简单高效的特征取方法,从而将时间序列问题与机器学习方法相结合,是本文的核心研究内容。本文通过特征采样方法将不等长的时间序列数据集转化为具有等长特征维度的数据集,主要包括简单随机特征采样方法,等时间间隔特征采样方法,分段随机特征采样方法。相比于以shapelet方法为代表的传统特征取方法,本文出的特征采样方法计算过程简单,无需进行大量的计算,同时,对于原始时间序列的特征取具有无损性。此外,对于特征采样算法中包含的参数,本文使用改进后的交叉验证方法对其进行调整和确定,高了分类的准确率。在对分类器的设计上,本文结合LSTM神经网络分类器与softmax分类器的优点。本文将特征采样后的数据集作为LSTM的输入,将LSTM的输出作为softmax分类器的输入,得到类别的概率值。同时,本文出了针对时间序列分类的增量学习方法,使模型可以更好的适应新的数据。UCR数据集上的实验结果表明了本文出的基于特征采样的时间序列分类算法在大部分数据集上具有较高的准确度。随着互联网时代的兴起,时间序列数据集的数据量也呈现爆炸增长的态势。然而,由于大多数的时间序列分类算法均在内存中完成,因此不适用于处理海量的时间序列。针对海量时间序列分类问题,本文出SFSC_MR算法(分段随机特征采样算法并行化)。本文定义了时间序列的近似化位图表示,利用近似化位图表示,得到海量数据的划分索引,从而在Map-Reduce阶段利用划分索引切分数据,保证负载均衡。该算法分为两个阶段,预处理阶段和查询阶段,预处理阶段负责时间序列位图的计算,海量数据的划分,以及分类模型的训练。在查询阶段,负责进行时间序列的分类。实验结果表明,SFSC_MR算法可以有效处理海量数据分类任务。