论文部分内容阅读
时间序列分类是时间序列数据挖掘的重要任务之一。它比普通分类问题困难的主要原因是时间序列数据长度不一致,而一般的分类算法只能处理长度相等的数据。即使是长度相等的时间序列,因为不能直接比较时间序列在相同位置上的数值,还是不能直接使用一般的分类算法。解决这几个难点通常有两种方法:第一,定义适合分类的距离度量,使得在此度量意义下相近的序列有相同的分类标签,这类方法称为领域无关的方法;第二,先利用时间序列中前后数据的依赖关系建立模型,再利用模型参数来表示每条序列,最后用一般的分类算法进行训练和分类,这类方法称为领域相关的方法。
本论文分别从这两方面进行了研究,针对这两类方法提出了相应的改进方法,并对提出的两类改进算法进行了比较研究。主要工作有:
(1)人们常常会用不同的“分辨率”来分析时间序列数据,而基于点距离的度量不具备这种的能力,无法有效反映不同时间尺度下时间序列的相似性。时间序列分类的第一类方法目前大都是基于点距离的方法,对股票价格这种人们比较关心走势的时间序列的分析存在不足。变化趋势反映了时间序列的动态特性,具有更高的使用价值。本论文针对已有的时间序列趋势化表示算法TR对时间序列信息描述不完整的缺陷,提出了基于均值的时间序列趋势化算法ITR,并重新定义了距离度量方法。该距离度量结合了趋势距离和点距离的优势,比传统的趋势化算法提供了更多的描述信息,因而能够获得比传统的趋势化算法更精确的结果。实验结果表明,基于均值的趋势距离度量的分类器比基于传统趋势距离度量的分类器具有更高的分类精度。
(2)时间序列分类的第二类方法当前大多是采用(主成分分析)PCA、(保局部投影)LPP等对1-NN分类器进行优化。通过LPP得到的映射简单并且是线性的,能够表示数据的非线性结构,因此LPP算法应用广泛。然而LPP算法是一种无监督的学习算法,未能充分地利用样本的类别信息,求取的并不是判别意义上的最优的投影向量,而且所找出的投影矩阵的列向量并不是两两正交的,数据重构比较困难。本论文通过引入LDA(线性判别分析)的思想,充分利用样本的类别信息,求取判别意义上最优的投影向量,将LPP算法扩展为一种有监督的学习算法,同时采用一种简单的正交化方法使投影矩阵的列向量两两正交,消除冗余特征,从而获得更好的1-NN分类器。
(3)长期以来,研究者往往只倾向于使用其中的某一类算法,而对这两类算法的对比研究却比较缺乏。我们采用丰富的分类数据集对提出的算法ITR和SLDPP进行了深入的比较和分析。通过比较,我们发现领域相关的算法SLDPP+1NN比较有优势,但受噪声的影响相对较大。另一方面,在一些比较规则的样本上,领域无关的算法ITR+1NN比较合适。