论文部分内容阅读
时间序列分类和不平衡数据分布是实际应用中普遍存在的问题。时间序列存在数据维度高、数据之间相关性强和噪声干扰多等特点,而不平衡数据学习则更加强调分类器对少数类样本的识别能力。这两个问题在实际应用中容易产生交集,成为更具有挑战性的不均衡时间序列分类(Imbalanced Time Series Classification,ITSC)问题。现有的针对ITSC问题的解决方法以重采样方法的优化为主,但是由于时间序列数据结构上的复杂性使采样过程变得更加困难。在时间序列分类方面,2018年提出的通用集成学习算法HIVE-COTE在公共时间序列数据集上取得了最好的分类效果,但是该算法处理的对象是类分布平衡的时间序列数据集,在面对不平衡时间序列分类和大规模时间序列分类问题时,该算法的分类效果并不令人满意。在这一背景下,本文从以下三个方面展开研究工作。一、不平衡时序数据子序列质量评价指标的改进针对不平衡时间序列中子序列选择影响分类质量的问题,分析信息增益值在不平衡数据集上的不适用性,并分别结合在不平衡数据集上应用较为广泛的AUC值和AUCPR值两个评价指标,对子序列质量的评价指标进行了改进。同时,选取时间序列分类中采用信息增益为子序列评价指标的shapelet分类方法,对指标优化前后的应用效果进行验证。实验结果表明:改进后的评价指标对不平衡时间序列分类问题有更好的适用性,能找到对不平衡时间序列中最具辨识能力的候选子序列集合。二、不平衡时间序列集成分类算法研究针对现有时间序列集成学习方法对于不平衡时间序列数据存在不适用的问题,本文提出了基于集成的不平衡时间序列分类算法IMHIVE-COTE。首先,提出组件算法的改良算法SBST-HESCA,应用了采样方法SMOM与Boosting相结合的方式,通过交叉验证预测结果更新样本权重,使数据集的重采样过程更有利于提升少数类样本的分类质量;其次,IMHIVE-COTE通过优化组件算法的权重,使不平衡时间序列分类算法对分类结果拥有更高的投票比重,再次提升集成算法整体的分类质量。实验证明,和对比方法相比,IMHIVE-COTE在整体上的分类评价值最高之外,在3个不平衡分类指标值上得到了最高的整体分类评价,可以证明IMHIVE-COTE解决不平衡时间序列分类问题的能力得到了显著提高。三、不平衡时间序列并行集成分类算法研究针对传统时间序列集成算法在大规模数据集上计算效率不高的问题,本文基于通用的分布式计算框架Spark,设计并实现了针对大规模不平衡时间序列的并行集成分类算法。首先对IMHIVE-COTE中组件算法的运行效率进行测试,得到最合理的并行计算架构。然后先对运算消耗最大的shapelet类算法SBST-HESCA和ST-HESCA进行了并行化设计,将并行化计算的重点放在两个算法共有的shapelet提取流程;接着对距离类算法Elastic Ensemble的运算流程进行了并行化改进,将并行设计的重点放在算法中的距离计算部分。改进后的算法在模型训练过程中能更好地利用Spark平台的并行计算机制,在不损害原分类算法精度的情况下大幅度提高了算法运行效率,最终设计出的并行集成分类算法较原算法在运行效率上最低有接近5倍的计算时间缩短幅度,最高的能达到24倍左右的时间效率提升,而且集群环境布置较为方便,对原算法的精度影响不超过2%,可以认为该并行架构能满足大规模不平衡数据序列分类任务的效率需求。本论文共有图11幅,表22个,参考文献102篇。