论文部分内容阅读
随着经济、科技和社会的发展,信息技术也在飞速发展,人们对于信息和数据的研究和关注也在不断增加。时间序列从广义上讲是随着时间、空间变化的序列数据,主要采用相同时间或相同空间进行间隔度量;其作为大量数据中的一类数据,具体遍布在在现实生活中的各个领域,例如:股票涨跌走势数据序列、商场购物记录数据序列、产品销售数据序列、病患疾病特征数据序列、语音信息处理数据序列等等。如何在大量时间序列数据信息中快速、高效的查找并分析出与已知序列数据相似的隐含信息和知识,成为现在研究者们关注的热点问题。由于时间序列的高噪声、高维度、波动性大的特点,对时间序列数据进行快速高效的分析,挖掘潜在的信息及相互间的联系,将是一个具有重要意义的课题。时间序列的挖掘分为两个阶段,第一个阶段是时间序列的模式表示;第二个阶段是时间序列的数据挖掘。模式表示主要是根据原始时间序列数据中的主要特征进行提取、拟合原始的序列曲线,对时间序列数据进行重新拟合表示。时间序列挖掘主要是对模式表示后的序列做进一步、深一层的分析研究。本文主要是以时间序列的相似性分析研究为主线,从时间序列的模式表示和时间序列的相似性度量分析方法这两个方面进行研究。本文的主要创新点和贡献如下:(1)基于信息熵的时间序列模式表示本文提出一种基于信息熵的时间序列分段线性表示方法,它对时间序列主要是去除噪声,并且提高拟合误差,有效的解决了由于数据间剧烈变化的干扰造成的分析不准确问题。传统的序列分段线性表示方法,大多通过直接利用数据间的差值来进行模式表示,这些方法不能有效的去除噪声。实验表明,与以往方法相比,基于信息熵的时间序列分段线性表示方法在消除噪声和拟合误差方面有明显的优势。(2)带转向标记的相似性度量分析方法在时间序列相似性研究中,本文提出一种带重要转向标记的最长公共子序列度量方法,可以有效提高时间序列的相似性分析的速度和效率。该方法利用重要点序列,将向量间夹角余弦的概念和指针矩阵引入相似性度量比较方法中。利用模式表示后的重要点序列,基于转向角,结合分段平均划分的思想、最长公共子序列相似性度量方法原理和标记矩阵,利用转向角之间向量余弦值序列和指针矩阵快速度量分析出两序列的相似性。实验表明,该方法保证了相似性度量分析的快速、高效和有效性。