论文部分内容阅读
数据挖掘是处理海量数据的一个重要方法,而将其应用到数据流中是一个具有挑战性的新兴领域。数据流中的数据挖掘技术在入侵检测系统、传感器网络、电信行业等领域具有十分广泛的应用背景,因此开展这方面的研究具有非常重要的现实意义。传统的关联规则挖掘算法只能处理数据集中的离散属性而无法处理连续属性,这是制约它在实际项目中应用的主要瓶颈之一。在静态数据集中,部分学者提出了离散化、模糊化等方法将连续属性加入关联规则挖掘过程中,但是没有文献在数据流环境中专门研究和讨论此问题。因此,本论文通过深入研究数据流关联规则挖掘问题,提出了模糊关联规则挖掘方法和基于模糊关联规则的实时数据挖掘体系。具体的研究结果如下:1.针对数据流动态变化的问题,提出了隶属度函数偏移度指标(MFB_measure)来度量连续属性的当前隶属度函数在当前数据中的合适程度。实验结果表明,隶属度函数偏移度指标能有效地捕捉数据流中的变化。2.针对传统数据流关联规则挖掘算法无法将连续属性加入挖掘过程中的问题,提出了基于聚类算法的模糊关联规则挖掘算法FFI-Stream。该算法利用隶属度函数偏移度指标监测隶属度函数的合适程度,及时地利用数据流聚类算法动态地更新隶属度函数。实验结果表明,FFI-Stream具有较好的性能。3.针对FFI-Stream算法无法有效处理具有高维连续属性的数据流的问题,提出基于遗传算法的数据流模糊关联规则挖掘算法GA-FFI-Stream. GA-FFI-Stream动态地维护数据流中的概要结构,使其适应在数据流中内存、CPU等资源有限的特点;采用启发式信息提高基于遗传算法提取隶属度函数方法的效率。实验结果表明,该算法能够克服FFI-Stream算法在连续属性高维时性能差的问题。4.针对数据流中的数据挖掘技术在实际项目中的需求,提出了基于模糊关联规则的实时数据挖掘体系(Real-time Data Mining System Based on Fuzzy Association Rules, RDMS-FAR)。该体系以模糊关联规则挖掘模块为基础,并衍生出分类模块等。RDMS-FAR的模糊关联规则挖掘模块基于FFI-Stream和GA-FFI-Stream算法框架,在分类模块中提出了数据流中的以模糊关联规则分类为基分类器的提升算法ruleboost。实验结果表明,该体系是有效的。最后对全文的研究工作进行了总结,并对这一研究领域的未来研究方向进行了展望。