时间序列特征表示与聚类算法研究

来源 :江苏大学 | 被引量 : 1次 | 上传用户:mlgb7758521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据技术的发展,数据挖掘技术在时间序列中的应用受到了越来越多的关注。时间序列特征表示将时间序列从高维空间转化到低维空间,有效地解决了“维灾难”问题,且降维后的表示序列可以更好地运用到分类、聚类等挖掘任务中。时间序列聚类是时间序列数据挖掘中比较重要的任务之一,采用无监督的时间序列聚类算法可以使内部更为相似的时间序列聚为一类。本文以时间序列为研究对象,探讨其特征表示与聚类算法。首先,采用特征表示方法对时间序列进行降维;然后,采用聚类算法挖掘时间序列中潜在的分类信息;最后,将特征表示方法和聚类算法应用于音乐领域,通过对音乐时间序列数据的分析,挖掘音乐流行趋势。具体工作如下:(1)针对符号聚合近似表示方法(SAX)没有考虑序列段内部的形态趋势和其距离度量在各序列段表示符号一致时无法度量的问题,提出基于始末距离的时间序列符号聚合近似表示方法(SAX_SM)。首先,SAX_SM方法使用各序列段的形态特征和符号特征共同描述低维序列,实现有效降维。其次,SAX_SM方法使用各序列段的形态特征构建始末距离,并结合符号距离定义一种新的距离度量公式,在各序列段表示符号一致时实现时间序列数据度量。实验表明,SAX_SM方法在13个数据集中获得了最大的分类准确率,具有更好的分类效果。(2)针对K-Means算法对异常值、离群点尤为敏感的问题,提出一种新的时间序列聚类算法K-Center。K-Center算法将所属集群中到其他时间序列距离度量值之和最小的序列作为新簇心。新簇心为已有时间序列,能有效解决K-Means算法在簇心调整和序列分配中受噪声或离群序列影响较大的问题。此外,通过预先计算所有时间序列之间的距离实现样本分配和簇心调整,避免了算法中需要循环计算距离度量的问题,降低了算法的计算量。实验均值表明,从兰德指数和准确率上看,K-Center算法比K-Means算法分别高0.043和0.038,因此,K-Center算法增强了时间序列聚类效果。(3)结合课题的主要研究成果,通过完成对音乐流行度的预测分析来讨论SAX_SM方法和K-Center算法在音乐领域的应用。首先,通过SAX_SM方法对音乐数据进行降维,再通过K-Center算法将音乐数据进行形态划分,最后,结合多层感知器(Multi Layer Perceptron,MLP)和自回归积分滑动平均模型(Autoregressive Integrated Moving Average Model,ARIMA)对音乐数据进行预测。实验表明,SAX_SM方法和K-Center算法在音乐时间序列领域是有效的。
其他文献
本文对近八年(1999—2007)来的知识服务研究进行了统计分析,试图从研究的角度理清知识服务发展的脉络,总结知识服务研究的成果,展望知识服务研究的未来。
一段时间以来,国内玉米价格受季节性压力影响整体仍处于下跌之中,新玉米的陆续上市,陈玉米的加紧出库,使国内玉米市场供给更为充沛,从市场反馈的信息来看,目前东北产区玉米价格不断
<正> 河北省邯郸市大名县的宋先生(13932017217)7月7日来电,反映其饲养的24头公猪体重均在30~35千克之间。去势后打了破伤风抗毒素,结果有3头出现过敏反应,呼吸加快,鼻镜干燥,
人的全面发展,是马克思对社会主义、共产主义本质特征的一个重要概括,是社会主义社会所追求的重要价值目标。人的全面发展是理想与现实的辩证统一。在社会主义初级阶段,要坚持以
中国会计制度的变迁是随着有中国特色的社会主义市场经济的步子一起进行的。中国的会计制度在促进社会、经济发展以及企业管理方面具有重要地位。会计准则的国际趋同成为中国
2005年4月14时,阳城县驾岭乡暖村刘某抱一宠猫到该站就诊。
河南省浚县鹤中冬熟果树研究中心成立于1983年,专业从事冬桃新品种开发研究。中心主任马玉玺高级工程师从1987年起先后育出中华冬桃2号、红雪桃、雪桃红世界、国庆红、霜降蜜
期刊
邓小平民主政治思想是对马列主义、毛泽东思想中的民主政治理论的继承和发展。邓小平在总结社会主义国家特别是中国民主政治建设的经验教训的基础上,应对当代国内国际局势的
研究者采用测验法,对156名城乡大班幼儿进行测查,以比较隔代教养和父辈教养幼儿学习方式入学准备水平的差异。结果表明,父辈教养幼儿的学习方式入学准备水平显著高于隔代教养