论文部分内容阅读
由于多元时间序列流广泛的存在于工业生产过程、商业活动和自然科学等领域中,因此,研究多元时间序列流中的知识挖掘是很有意义的。对多元时间序列流知识挖掘的一个重要的研究方向即是挖掘多个时间序列流之间的关联关系。时间序列流具有流数据的特点-海量性、连续性和流动性等,时间序列流中的数据和知识都会随着时间的推移而发生变化。在实际应用中,人们往往对新产生的数据中蕴含的知识可能更感兴趣。因此,本文提出了一种挖掘多元时间序列流动态关联规则的方法,这里的动态是指随时间变化而动态更新的一个过程,而挖掘出的规则体现了在同一时间段内多元时间序列流之间的关联关系。目前已有一些针对多元时间序列流关联规则挖掘的研究,这些研究挖掘出的规则类型各式各样。但大多数研究挖掘出的规则前后件中的基本元素,即只包含一个项的元模式都有着相同的时间段长度。且这些研究大多数并没有考虑新数据中的知识可能会更令人感兴趣的情况。本文提出的方法使用滑动窗口来挖掘多元时间序列流之间的动态关联规则,这种动态关联规则随时间变化且它的元模式,即那些只包含一个项的模式,在不同的规则中有不同的时间段长度,在同一规则中有着相同的时间段。当数据流流过时流数据被预处理,预处理的过程包括分段线性化近似,分割线性化后的数据使在同一时间段内每个时间序列流只有一个线段、然后增量地聚类这些线段,数据流的符号化表示以及合并处理后的数据流得到事务集以用于挖掘。在预处理后我们用一个规则挖掘方法来挖掘关联规则。滑动窗口内的模式存放在一个概要存储结构-全局的SWFI-tree中,通过定期的剪枝策略以去掉SWFI-tree中的不频繁模式和过期的模式。同时,为了区分新事务模式和历史事务模式,该方法也引入了时间衰减模型,通过一个衰减因子来减少历史事务模式的权重。通过对实际的热电厂数据的实验结果表明,该方法是有效的。可以挖掘出相应类型的关联规则,且随着时间的变化规则也在不断地变化,体现了规则的动态性。