论文部分内容阅读
随着信息技术的飞速发展,数据挖掘受到越来越多的关注,本文在综述国内外数据挖掘研究发展概况后,对时间序列的表示、距离度量,聚类等几个问题进行研究,提出一些算法和解决方案,主要包括以下两方面的内容:(1)重新定义了时间序列的元组表示模型,使该模型具有了刻画时间序列的动态变化趋势和内容的能力。通过元组序列的投影,构成了齐元组序列,定义了齐距离,解决了在元组表示下的时间序列的全匹配问题,克服以点距离为基础的时间序列匹配物理概念不明确等缺陷。然后,在DTW(Dynamic Time Warping)距离的基础上提出了TVTW(Tuple Vector Time Warping)距离,TVTW距离允许元组序列沿着时间进行错位匹配,有效的解决了时间序列伸缩匹配的问题,相对于DTW伸缩更加合理,物理意义更加明确,在实验中得到了令人满意的效果。(2)将TVTW技术运用到时间序列的聚类中,构造一个以TVTW为距离度量的HTMC(Hierarchical then K-means Clustering)聚类方法。作为HTMC的支撑,提出了元组序列的合并方法,该方法能够产生出了综合了每一类中各序列的信息的模版序列(Templet Tuple Sequence),模版序列作为聚类各阶段的类中心,解决了聚类的过程中各阶段需要计算类中心这一关键问题。推导出了TVTW下的Lower-Bounding,使得在计算较为耗费时间的TVTW之前,先通过计算Lower-Bounding形成侯选集,再进行TVTW距离的计算,有效的解决得TVTW计算量大的问题,加快了聚类的速度。最后在总结全文的基础上,说明了今后需要继续的工作。