论文部分内容阅读
时间序列数据广泛的存在于社会生活的方方面面,随着时间的推移,数据量越来越多,如工业、网络、通信、交通、医学等领域。时间序列分类是将待测样本分配到预先定义好的类别中,被广泛应用在医学诊断、灾害预测、入侵检测、过程控制、道路交通等生活中的方方面面。而在很多领域中越早做出分类用来指导决策越有利。时间序列早期分类,是针对时间序列数据尽早的做出预测同时满足预期的预测质量,即在满足一个给定的最小的准确率情况下,早期分类尝试着优化分类的早期性,而不是像其他一般分类方法最大化准确率。时间序列早期分类在一些时间敏感的应用领域至关重要,例如健康信息学、灾害预测、入侵检测、股市行情预测等领域。本文以时间序列数据为主要研究对象,针对早期分类的特性,分别探讨了用于单变量时间序列和多变量时间序列的早期分类方法,来提高早期分类特性。本文的主要研究工作如下:(1)单变量时间序列早期分类研究。提出了基于PAA的单变量时间序列早期分类算法,对于时间序列,长度随着时间在不断增加,因此时间序列的长度(也称之维数)是实际分类中需要面临的一大难题。而早期分类的特性,使得大多数维数约简方法无法用于早期分类的实际应用中。分段聚合近似实现简单,能够用于早期分类的实际应用中,本文在ECTS方法的基础上,提出基于分段集合近似的早期分类方法PAA_ECTS,使用PAA对原始数据进行维数约简,在低维空间进行早期分类,并在43个单变量时间序列数据集上与ECTS、ECDIRE、RelClass、EDSC进行了比较,并进行威尔克森秩检验,显示我们的方法好于已有算法。(2)多变量时间序列早期分类研究。提出了基于center sequence的多变量时间序列早期分类算法和基于融合的多变量时间序列早期分类算法。针对MTS数据含有多个变量,且变量间存在冗余等问题,本文提出了center-sequence_ECMTS,采用center sequence将MTS合并为一条中心序列,降低了变量的维数,进行早期分类,后续对基于center-sequence_ECMTS的早期分类方法,提出改进,将PAA与center sequence相结合,提出了算法MTSECP,比以往的MTS早期分类方法,极大地减低了复杂度,并在6个MTS数据集上进行了验证;针对MTS的多个变量,不同变量度量的信息不同,携带特征不相同的问题,本文提出了基于融合的MTS早期分类算法ECMTSEn,利用了每个变量对分类的贡献性和敏感性,最后对分类结果进行融合,综合考虑了变量间的关系,后续对ECMTSEn进行改进,将变量子集选取与变量融合相结合,提出FSECMTSEn,并在9个通用MTS数据集上进行了验证,并进行了威尔克森秩和检验,取得了良好的早期分类效果。