论文部分内容阅读
随着互联网技术的迅速发展,数据呈指数增长,这些数据大多以时间序列形式存在,所以面向时间序列数据的挖掘技术与方法受到了广泛的重视。由于时间序列数据存在海量性、高维性、噪声大等特点,直接使用传统聚类方法很难准确地将对其进行划分。而基于u-shapelets的时间序列聚类方法使用局部有辨识度的特征以区别时间序列间的差异,该方法不仅避免了噪声对聚类带来的影响,还有助于提高传统聚类方法对时间序列数据进行聚类的精度和效率。为此,本文分析了基于u-shapelets时间序列聚类方法及其局限性,同时针对准确度低、时间复杂度高、数据类型多样三个方面进行改进,并将改进方法应用到我国362个城市空气质量等级进行划分中,用以寻找污染严重区域。本文的主要工作可以归纳如下:(1)针对单特征时间序列聚类分析,提出了基于DTW的u-shapelets单特征聚类方法。首先,该方法随机选取全部子序列的1%作为候选集,解决了提取最佳u-shapelets集合时间消耗大的问题;其次,计算子序列间的质量评估时,选用DTW距离计算改进分离度的计算,提高选取最佳u-shapelets集合的质量,基于最佳u-shapelets集合进行聚类分析。本文使用5个标准数据集对DTW-u-shapeletClus方法进行验证,结果表明其准确度、运行效率度均有提高。(2)针对多元时间序列聚类分析,提出了基于pu-shapelets的多元时间序列聚类方法。针对多元时间序列使用PCA方法对时间序列进行降维,获取序列具有更多有价值的信息;随后使用Pearson相关系数对全部序列进行排序,筛选不相似的序列做为候选集,在此基础上选取最佳u-shapelets集合进行聚类分析。使用公共数据集从准确度和时间消耗上进行分析。实验结果表明,相比于BruteForce方法和基于符号的u-shapelets聚类方法,本文所提方法在准确度上具有良好的表现,且运行速度有明显提升。(3)将本文所提两种时间序列方法应用到我国362个城市的空气质量指标数据中,依据空气质量对城市进行聚类。先运用DTW-u-shapeletClus方法分别依据PM2.5、PM10、SO2、CO、NO2和O3六项污染物对城市进行聚类,然后应用PCApu-shapeletsMTSC方法对六项污染物综合进行分析,并将城市按照污染等级进行划分,并将聚类结果以可视化方式展示。