时间序列分类的研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:alonsoyl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时间序列分类是时间序列数据挖掘的重要任务之一。它比普通分类问题困难的主要原因是时间序列数据长度不一致,而一般的分类算法只能处理长度相等的数据。即使是长度相等的时间序列,因为不能直接比较时间序列在相同位置上的数值,还是不能直接使用一般的分类算法。解决这几个难点通常有两种方法:第一,定义适合分类的距离度量,使得在此度量意义下相近的序列有相同的分类标签,这类方法称为领域无关的方法;第二,先利用时间序列中前后数据的依赖关系建立模型,再利用模型参数来表示每条序列,最后用一般的分类算法进行训练和分类,这类方法称为领域相关的方法。   本论文分别从这两方面进行了研究,针对这两类方法提出了相应的改进方法,并对提出的两类改进算法进行了比较研究。主要工作有:   (1)人们常常会用不同的“分辨率”来分析时间序列数据,而基于点距离的度量不具备这种的能力,无法有效反映不同时间尺度下时间序列的相似性。时间序列分类的第一类方法目前大都是基于点距离的方法,对股票价格这种人们比较关心走势的时间序列的分析存在不足。变化趋势反映了时间序列的动态特性,具有更高的使用价值。本论文针对已有的时间序列趋势化表示算法TR对时间序列信息描述不完整的缺陷,提出了基于均值的时间序列趋势化算法ITR,并重新定义了距离度量方法。该距离度量结合了趋势距离和点距离的优势,比传统的趋势化算法提供了更多的描述信息,因而能够获得比传统的趋势化算法更精确的结果。实验结果表明,基于均值的趋势距离度量的分类器比基于传统趋势距离度量的分类器具有更高的分类精度。   (2)时间序列分类的第二类方法当前大多是采用(主成分分析)PCA、(保局部投影)LPP等对1-NN分类器进行优化。通过LPP得到的映射简单并且是线性的,能够表示数据的非线性结构,因此LPP算法应用广泛。然而LPP算法是一种无监督的学习算法,未能充分地利用样本的类别信息,求取的并不是判别意义上的最优的投影向量,而且所找出的投影矩阵的列向量并不是两两正交的,数据重构比较困难。本论文通过引入LDA(线性判别分析)的思想,充分利用样本的类别信息,求取判别意义上最优的投影向量,将LPP算法扩展为一种有监督的学习算法,同时采用一种简单的正交化方法使投影矩阵的列向量两两正交,消除冗余特征,从而获得更好的1-NN分类器。   (3)长期以来,研究者往往只倾向于使用其中的某一类算法,而对这两类算法的对比研究却比较缺乏。我们采用丰富的分类数据集对提出的算法ITR和SLDPP进行了深入的比较和分析。通过比较,我们发现领域相关的算法SLDPP+1NN比较有优势,但受噪声的影响相对较大。另一方面,在一些比较规则的样本上,领域无关的算法ITR+1NN比较合适。
其他文献
随着新技术革命的到来,世界进入了全信息时代,对多源信息进行有效融合处理的新型理论和技术应运而生。图像融合作为可视化的信息融合,为世人所关注。本文研究了基于小波变换
H.264编码标准具有码率低和视频质量高等优越性能,在具有这些高性能的同时,编码过程中的计算复杂度也相应的增加了,因此如何优化H.264标准编码过程中的算法成为了提高H.264编
作为Web2.0时代具有代表的社交平台,微博已经成为了一种主流的信息分享和交流的平台,微博营销也应运而生。微博营销是一种新型的网络营销方式,商家通过在微博上发表与商品主
随着全球经济一体化和信息技术的发展,许多企业都完成了基础设施的信息化,并逐步走向协同化。由于企业内部管理水平的不断提高和外部市场竞争的日益激烈,单靠产品销售获得的
随着云存储技术的快速发展,使用云存储保存或者备份数据的企业或者个人也越来越多,用户在使用云存储服务时更加注重数据的安全性,而数据安全保护技术主要是通过对数据进行加
信任评价模型可以解决网络中的一些安全问题,但是当网络中的节点数目非常大时,现有全局信任模型的计算量与通信开销比较大,影响了信任模型的推广和应用。针对该问题,本文在参
近几年来基于P2P技术的网络应用迅速发展起来。有关的研究人员认为,P2P技术的应用将使网络上的资源得到充分利用和最大化的共享。P2P技术在内容分发、实时通信、协同工作、以
粗糙集理论作为粒度计算的三大模型之一,自产生起就备受关注,并已广泛应用与机器学习、模式识别等领域。其主要内容包括近似集、决策系统、数据预处理以及属性约简等等,是一
随着数字电视广播技术的发展,数字电视接收系统的研究与开发已成为新的发展方向。龙芯处理器以其低成本、低功耗、指令级并行等优点广泛应用于嵌入式领域。本文基于龙芯2E处
随着网络的普及和应用,越来越多的软件系统部署在Internet上,由于网络平台与传统计算机软件平台特征上有很大的不同,促使软件系统的运行环境从静态、封闭逐步转向动态、开放