论文部分内容阅读
现如今提到数据挖掘技术,相信大家都并不陌生,因为它已渐渐融入在我们生活的方方面面。当今社会的计算机技术的迅猛发展给我们的生活带来的各种便利,同时伴随着我们对数据的操作与研究的广度和深度的加深,人们已经不再只满足对海量数据的表面性掌握,更希望获得到更多更有价值的信息,而数据挖掘技术就是帮助人们解决这一问题,即从海量数据中挖掘其背后的信息。如今对于时间序列数据挖掘的研究有很多的方面,其中相似性挖掘和模式挖掘是时下比较流行也是受到国内外学者关注较多的研究。作为数据挖掘的一项基础研究,相似性挖掘对研究数据挖掘的各个方面有着重要的意义。而在相似性研究中面临的一个重要问题就是如何解决对时间序列数据的压缩与表示,在这方面人们也早已进行了系统而深入的研究,同时也提出了多种时间序列的表示方法来对数据量进行处理。本文以股票时间序列数据为对象,在对时间序列数据线性化的章节提出基于特征点与临界分段斜率比较的方法更好对数据进行线性划分,该方法从原始序列中提取特征点,以特征点来作为分段的界线,并通过比较临界分段斜率拟合数据。该方法在保证时间序列数据原有特征的基础上,并且对于时间序列的多种变形都不敏感。针对包含大量噪声并存在数据缺失的高维多元时间序列数据,本文提出的是一种基于斜率表示的时间序列相似性度量方法,该方法在对时间序列数据的分段线性化的基础上,对分段线段进行斜率的相似性度量,概念更清晰明确。并且以数据线性化和相似性度量方法为基础,对实际股票数据进行了预测与分析。