论文部分内容阅读
数据挖掘技术是数据库和人工智能领域研究的热点课题,用于发现潜藏在大量数据中的有用知识。随着数据库规模的不断增长,数据挖掘方法面对的数据对象越来越大且在不断变化中,使用传统的数据挖掘方法很难处理。而数据挖掘过程本身是一个反复交互式过程,数据变化或挖掘参数改变前后的挖掘结果存在重复性,因此通过继承以往挖掘结果可以加快挖掘进程。本文主要研究数据挖掘中关联规则知识的继承性挖掘。
关联规则挖掘是数据挖掘研究中的一个重要的研究内容,用于发现大量数据中项集之间有趣的关联或相关联系。目前,在数据挖掘研究中,对关联规则挖掘的研究开展得比较深入。本文详细介绍了关联规则的基本概念和基本理论,并针对关联规则挖掘的特征分析其继承性挖掘的特点。通过研究发现直接继承数据挖掘的结果存在一定困难,因此文中提出了基于中间挖掘结果的继承性挖掘方法。通过继承中间结果可以直接得到改变后的最终挖掘结果,无需要访问原始数据。
关联规则的继承包括挖掘参数变化和数据改变两种情况下的继承,文中对两种继承分别展开研究。对参数改变问题,文中主要针对最小支持度阈值参数改变,提出了基于中间挖掘结果BP树的挖掘方法BP IUA。通过只挖掘支持度阈值在[α,β]范围内的频繁模式,BP IUA方法大大缩小了继承挖掘时频繁模式搜索空间,提高了挖掘效率。
对数据改变问题,本文研究新数据加入时的继承性挖掘,以往研究也称之为数据增量式关联规则挖掘。本文结合两种中间挖掘结果SFP树和ItemBitmap,提出新的数据库投影挖掘算法Bitmap Projection。利用两种结构的可归并性,脱离原始数据库,对更新后的数据进行挖掘。
最后,本文实现了一个关联规则继承性挖掘试验系统,该系统中包括基于FP Growth算法的非继承性挖掘模块,基于BP IUA算法的参数改变时继承性挖掘模块和基于Bitmap Projection算法的数据增量时继承性挖掘模块。实验表明本文提出的两种算法在处理继承问题时是高效可行的。