基于u-shapelets的时间序列聚类方法及其在空气质量分析中的应用

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:zhoudeyou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅速发展,数据呈指数增长,这些数据大多以时间序列形式存在,所以面向时间序列数据的挖掘技术与方法受到了广泛的重视。由于时间序列数据存在海量性、高维性、噪声大等特点,直接使用传统聚类方法很难准确地将对其进行划分。而基于u-shapelets的时间序列聚类方法使用局部有辨识度的特征以区别时间序列间的差异,该方法不仅避免了噪声对聚类带来的影响,还有助于提高传统聚类方法对时间序列数据进行聚类的精度和效率。为此,本文分析了基于u-shapelets时间序列聚类方法及其局限性,同时针对准确度低、时间复杂度高、数据类型多样三个方面进行改进,并将改进方法应用到我国362个城市空气质量等级进行划分中,用以寻找污染严重区域。本文的主要工作可以归纳如下:(1)针对单特征时间序列聚类分析,提出了基于DTW的u-shapelets单特征聚类方法。首先,该方法随机选取全部子序列的1%作为候选集,解决了提取最佳u-shapelets集合时间消耗大的问题;其次,计算子序列间的质量评估时,选用DTW距离计算改进分离度的计算,提高选取最佳u-shapelets集合的质量,基于最佳u-shapelets集合进行聚类分析。本文使用5个标准数据集对DTW-u-shapeletClus方法进行验证,结果表明其准确度、运行效率度均有提高。(2)针对多元时间序列聚类分析,提出了基于pu-shapelets的多元时间序列聚类方法。针对多元时间序列使用PCA方法对时间序列进行降维,获取序列具有更多有价值的信息;随后使用Pearson相关系数对全部序列进行排序,筛选不相似的序列做为候选集,在此基础上选取最佳u-shapelets集合进行聚类分析。使用公共数据集从准确度和时间消耗上进行分析。实验结果表明,相比于BruteForce方法和基于符号的u-shapelets聚类方法,本文所提方法在准确度上具有良好的表现,且运行速度有明显提升。(3)将本文所提两种时间序列方法应用到我国362个城市的空气质量指标数据中,依据空气质量对城市进行聚类。先运用DTW-u-shapeletClus方法分别依据PM2.5、PM10、SO2、CO、NO2和O3六项污染物对城市进行聚类,然后应用PCApu-shapeletsMTSC方法对六项污染物综合进行分析,并将城市按照污染等级进行划分,并将聚类结果以可视化方式展示。
其他文献
仲裁在国际商事领域是一种重要的替代性争端解决方式。阿联酋是我国“一带一路”上重要的合作伙伴,阿联酋的法律体系呈现出大陆法、伊斯兰法和英美法并存的局面,同时阿联酋也
线轮廓度反映的是实际轮廓相对于理论轮廓的变动量,是评价零件轮廓的指标之一。如何准确、快速地测量出零件某条轮廓线的线轮廓度一直是几何计量领域的重要研究方向。线轮廓
4K/8K高频视频技术,物联网技术,人工智能,无人驾驶等诸多新技术,改变了人类生活、工作的方式。不同场景新技术的顺利应用使网络流量迅速增长。预计到2021年,全球移动流量将达
本研究旨在通过探究在情感因素(亏欠感和感激感)和中国文化价值观(人情和互惠)的中介作用下,自我构念和关系流动性对接受陌生人恩惠的影响,从而进一步探索中国人在社会交往中
Micro TCA(Micro Telecom Computing Architecture)作为新一代的通信系统,因具有高性能、高带宽和高集成度等优点,在高能物理实验和空间物理探测领域发挥着越来越重要的作用
国家豁免理论发展至今,限制豁免已经明显成为一种趋势,美英法德等西方国家已经积累了大量的国家豁免方面的司法实践经验。管辖限制豁免在实践中的运用必然导致执行豁免的问题
空间衍射是激光非线性传输过程中产生小尺度自聚焦的主要原因,小尺度自聚焦会导致激光离轴方向的能量聚集在某些空间位置。这些空间位置的强度由于能量的聚集而增加,严重时会
随着高中新一轮课程改革的推进,物理学科的重要性越来越凸显,面对越来越多选择物理学科的各层次学生,教材中的常规教学资源已经不能很好的满足教学的需求。特别是偏远学校,生
在非线性光纤光学中,两束初始功率不同的耦合脉冲在光纤中同时传输时,耦合脉冲之间的相互非线性作用导致两束脉冲在时间、空间以及频域都发生了很大的变化,而在这些变化中调
数学源于对现实世界的抽象,基于抽象结构,通过符号运算、形式推理、模型构建等,理解和表达现实世界中事物的本质、关系和规律。以学习数学公理、定理、法则、公式和性质等为