论文部分内容阅读
针对数据仓库中多维数据的联机分析处理和数据挖掘一直是国内外的研究热点,它在企业决策支持中具有广阔的应用前景和巨大的应用价值。联机分析处理虽提供了多角度多粒度展现数据的功能,但它实质上是用户驱动的探查,当面对海量数据时,用户易迷失,忽略重要信息;而目前大部分数据挖掘技术并非基于多维数据模型设计,不能很好的完成对多维数据的挖掘。如何为用户自动发现,或引导用户更快发现多维数据中隐藏的信息成为研究者们面临的新挑战。
“时变性”是数据仓库的重要特征,存储于数据仓库中的多维数据隐式或显式地带有时间信息。数据随时间的变化常伴随着规律,因此以时间维为切入点,利用丰富的时间序列分析方法对多维数据进行分析挖掘无疑能够帮助用户发现大量有用知识。
本文从时间序列的周期模式挖掘入手,定义了密集部分周期模式及其活跃期的概念,提出了一种高效的密集部分周期模式发现算法,并将该算法与多维数据相结合,设计并实现了一系列基于密集部分周期模式信息的数据立方体智能导航与知识发现操作,帮助用户从多角度发现多维数据中存在的周期变化特征。
具体来说,本文的主要研究包括:
◇密集部分周期模式的挖掘密集部分周期模式指时间序列数据中曾经密集出现的部分周期模式,它不要求该模式在整个序列上都成立,也不要求周期内所有位置都参与周期循环。本文设计的算法能够以较小的时空代价挖掘时间序列中所有密集部分周期模式。
◇基于密集部分周期模式的异常发现基于密集部分周期模式的异常发现方法针对时序数据中的周期模式,找出不符合模式规律的异常,并通过计算异常程度,为用户指出更值得关注的信息。
◇基于密集部分周期模式的多维数据知识发现与自动导航将密集部分周期模式和异常的挖掘技术与多维数据模型结合,帮助用户发现数据立方体中多层次时间序列的周期模式与异常信息,并提供针对周期模式和异常的上卷和下钻操作,帮助用户分析聚集层周期模式与细节层周期模式的关系,以及周期异常的产生原因和影响范围。
这些研究成果在我们的原型系统中得到了使用和验证,构成基于密集部分周期模式的时间序列分析子系统。实验结果和性能分析表明,本文提出的方法是实用且高效的。