论文部分内容阅读
随着人类进入大数据时代,通过数据挖掘技术将时间序列数据库中隐藏的、有价值的知识挖掘出来得到了愈多的关注,其相关技术己被成功地运用到各个领域。时间序列相似性度量可以衡量时间序列之间相似程度的方法,其度量结果可用于分类、聚类、相似性搜索等数据挖掘任务中。时间序列聚类是时间序列数据挖掘领域中重要的挖掘任务之一,不同的时间序列聚类方法,可以挖掘出不同的隐含信息。本文以时间序列为研究对象,探讨时间序列的相似性度量方法和聚类方法,促使方法可以充分与灵活地应用到时间序列数据挖掘中,然后撷取潜在珍贵的信息和知识。本文的主要研究内容如下:(1)以数值分布特性和趋势波动特征为出发点,提出基于数值符号和形态特征的相似性度量方法。新方法能够充分反映时间序列数值分布和形态特征,有效地提高了时间序列相似性的度量效果。(2)针对传统聚类方法通常需要确定具体聚类数目,及未能充分反映时间序列整体空间结构和相互影响关系的问题,提出一种基于中心度的标签传播时间序列聚类方法。该方法无需指定具体聚类数目即可实现自动聚类,并且根据不同参数构建不同的网络空间结构,聚类数目能够对此进行相应地调整,提高其在时间序列聚类的性能。(3)动态时间弯曲和时间序列聚类在金融领域的应用。一方面,以动态时间弯曲和经典时间序列聚类方法为基础,在金融领域进行进一步探索。针对股票联动性的研究,挖掘股票的隐含信息,对监管部门和投资者决策起着一定帮助作用。另一方面,以沪深300指数为标的指数,利用新的相似性度量方法和聚类方法对现货股票进行聚类分析,选定追踪成分股,并建立优化模型来获得成分股在投资组合中的优化权重,并使得新方法确定的成分股更能准确地模拟标的指数,且能够满足不同投资喜好的投资者投资要求。研究内容通过数值实验分析,并且通过比较研究领域的相关方法,检验了新方法的性能,进一步完善时间序列相似性度量和聚类的研究,同时在一定程度上扩展了时间序列数据挖掘相关理论和提升了方法在金融时间序列数据领域中的应用性能。