论文部分内容阅读
随着大数据技术的发展,数据挖掘技术在时间序列中的应用受到了越来越多的关注。时间序列特征表示将时间序列从高维空间转化到低维空间,有效地解决了“维灾难”问题,且降维后的表示序列可以更好地运用到分类、聚类等挖掘任务中。时间序列聚类是时间序列数据挖掘中比较重要的任务之一,采用无监督的时间序列聚类算法可以使内部更为相似的时间序列聚为一类。本文以时间序列为研究对象,探讨其特征表示与聚类算法。首先,采用特征表示方法对时间序列进行降维;然后,采用聚类算法挖掘时间序列中潜在的分类信息;最后,将特征表示方法和聚类算法应用于音乐领域,通过对音乐时间序列数据的分析,挖掘音乐流行趋势。具体工作如下:(1)针对符号聚合近似表示方法(SAX)没有考虑序列段内部的形态趋势和其距离度量在各序列段表示符号一致时无法度量的问题,提出基于始末距离的时间序列符号聚合近似表示方法(SAX_SM)。首先,SAX_SM方法使用各序列段的形态特征和符号特征共同描述低维序列,实现有效降维。其次,SAX_SM方法使用各序列段的形态特征构建始末距离,并结合符号距离定义一种新的距离度量公式,在各序列段表示符号一致时实现时间序列数据度量。实验表明,SAX_SM方法在13个数据集中获得了最大的分类准确率,具有更好的分类效果。(2)针对K-Means算法对异常值、离群点尤为敏感的问题,提出一种新的时间序列聚类算法K-Center。K-Center算法将所属集群中到其他时间序列距离度量值之和最小的序列作为新簇心。新簇心为已有时间序列,能有效解决K-Means算法在簇心调整和序列分配中受噪声或离群序列影响较大的问题。此外,通过预先计算所有时间序列之间的距离实现样本分配和簇心调整,避免了算法中需要循环计算距离度量的问题,降低了算法的计算量。实验均值表明,从兰德指数和准确率上看,K-Center算法比K-Means算法分别高0.043和0.038,因此,K-Center算法增强了时间序列聚类效果。(3)结合课题的主要研究成果,通过完成对音乐流行度的预测分析来讨论SAX_SM方法和K-Center算法在音乐领域的应用。首先,通过SAX_SM方法对音乐数据进行降维,再通过K-Center算法将音乐数据进行形态划分,最后,结合多层感知器(Multi Layer Perceptron,MLP)和自回归积分滑动平均模型(Autoregressive Integrated Moving Average Model,ARIMA)对音乐数据进行预测。实验表明,SAX_SM方法和K-Center算法在音乐时间序列领域是有效的。