论文部分内容阅读
在军事、工业过程监视、医疗诊断、机器人控制、物流管理、金融经济管理等系统中,我们面临的都是复杂的多流时间序列数据,如何利用计算机技术对多流时间序列信息快速、准确地加以分析、估计,评价,优化综合,具有重要的意义。如在农业生产中,温度的变化、气压的变化、虫害的变化、粮食产量的变化组成了多个数据流的时间序列,如果能够发现这些数据流之间的关系,用于指导实际生产,对于提高产量、防治灾害,有重要的现实意义。 当前对时间序列的研究集中在单一时间序列内部关系的发现如:趋势、序列模式、相似性模式的搜索,关联规则、周期的发现等等。研究多流时序不能简单地将它割裂为单流时序,因为这样就割裂了数据流事件之间的关系。虽然MSDD能够发现多流时间序列中的依赖模式,但是由于其缺少对数据的初始化、事件之间时间关系的表示不直观、算法执行的时间空间开销很大(O(n~5))、不能够充分发现多流时间序列包含的知识,它只发现依赖关系,因此研究新的,高效,全面的发现多流时间序列事件之间关系的算法成为必要。 本文分析了单一和多流时间序列中的知识发现,把多流时间序列事件内部存在的关系表示为:关联模式、依赖模式、突变模式。本文将它们统称为结构模式,而这正是目前其它算法、没有考虑到的,虽然MSDD考虑了事件之间的依赖关系,但它忽略了突变模式,关联模式等重要的知识表示。本文给出了关联模式、依赖模式、突变模式的定义,提出了一个比较灵活全面、直观的挖掘它们的算法:时间窗口移动筛选算法TWMA(Time Window Moving And Filtering Algorithm)。该算法的一个突出特点是将时间序列事件按时间窗口序列化,使得事件之间的时间关系表示很直观,该算法能成功地从多流时间序列中发现了事件之间的关系。该算法与其它算法比较,发现的知识更丰富,时空开销小,时间复杂度为(O(n~3)),算法直观,简洁。我还用VC++成功设计了一个挖掘器,并对由医院门诊数据流、气温变化数据流、气压变化数据流组成的多流时间序列进行了挖掘,证明了TWMA是可行。 面对数据的海洋,传统的单机串行算法己经不能适应快速、实时的知识需求,研究面向多机、并行、分布式的数据挖掘模型越来越重要。本文通过分析当前主要的并行模型、算法,总结出它们面临的共同问题是:处理机容量的限制和处理机需要传输大量的数据,于是,本文在TWMA的基础上提出了PTWMA,采用了表对应技术、以及算法本身不需要反复传输大项集的策略来克服了上述两个问题。PTWMA 为分布式,并行控掘多流时间序列提供了一种有效的算法和模型。