时间序列的特征表示与聚类方法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:liangmingming
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时间序列数据是一种常见的数据形式,在各个领域中都有着广泛的应用。因此,对挖掘时间序列内含的信息与知识是数据挖掘的一个重要研究方向。而传统的数据挖掘方法通常针对的是静态数据,而时间序列数据通常是动态的、数据量大的数据。传统的数据挖掘方法并不能有效地挖掘其中的信息。如何更好地处理和挖掘时间序列数据具有十分重大的意义。时间序列的潜在模式挖掘是对没有先验知识的时间序列发掘其内在联系。由于时间序列的数据量大,要挖掘其潜在模式,首先要通过时间序列特征表示对其进行降维,然后在采用无监督的聚类算法将内在联系紧密的时间序列聚合为一类,最终得到的聚类结果可认为是其潜在模式。本文针对时间序列挖掘潜在模式困难的问题,分析了通过时间序列特征表示和聚类方法实现潜在模式分离的可行性。并针对数值型时间序列分析了目前已有的适用于该类数据的时间序列特征表示方法及聚类算法。已有的时间序列特征表示法对时间序列进行降维的同时,其特征表示缺不能很好地保留原时间序列的特征,这会对后续的聚类分析造成影响。因此本文通过将离散傅里叶变换与分段思想相结合,提出分段离散傅里叶变换的时间序列特征表示法,有效对时间序列降维的同时能尽可能地保留其原序列的特征。在没有任何关于数据的先验知识的情况下,聚类分析能解决大量数据的分类问题,挖掘其内在联系。因此,可采用聚类方法挖掘其潜在模式。其中DENCLUE算法是一种优秀的解决变密度任意形状分布数据的聚类算法,具有很好的普适性。但是,由于DENCLUE算法存在人为设定的参数多,参数间相互制约使得参数设定调试困难,计算复杂度高等的问题,使其应用于时间序列模式分离的效率和性能不佳。为了改善这一问题,使DENCLUE算法能更好地挖掘时间序列的潜在模式,引入聚类评估的簇内点数估计方法,提出一种规避噪声阈值设定的DENCLUE算法。该方法减少了人为设定参数的数量,降低计算复杂度,此外,其得到的簇的紧凑度更佳,能够较好的识别数据中的噪声点,聚类结果更能反映真实数据分布情况,对于DENCLUE方法的适用性以及性能均得到有益的提升。本文将提出的分段离散傅里叶变换和规避噪声阈值设定的DENCLUE算法应用于某航天发射场的管道温度监测的间序列数据,寻找其潜在模式。并通过基于动态时间弯曲距离的轮廓系数验证发掘的模式是否满足同一模式的时间序列有较高的相似度,不同模式的时间序列相似度较低,以此标准来判断得到的潜在模式是否符合实际情况。
其他文献
为了与当地大型房地产开发商建立长期战略合作伙伴关系,许多建筑设计企业采取了异地建立分支机构的模式。对于扩张后总部对异地企业的管控,既有成功的案例,也有一些企业遭遇
在社会主义市场经济条件下,必须着眼于大学生这个特定时期的"人"来研究和改革现行的学生管理工作,明确学生管理工作的目标,理清学生管理工作的思路,建立科学高效的管理机制,
对812例0~8岁的感觉神经性聋儿的病例资料进行了分析,按耳聋发生的时间顺序将其划分为4个不同的时期,并找出每一期中不同的致若原因,结果表明;滥用抗生素仍是当前致聋的主要原因,但
我国国防工业包括航空、航天、船舶、兵器和核工业等五大军工总公司,下属200余个军工科研院所,拥有几十万科研人员,是国防科技建设和国民经济建设中一支强大的队伍。随着改革开