论文部分内容阅读
随着信息技术的高速发展和互联网的迅速普及,导致在各个应用领域的数据库中存储了大量的数据,这些数据集中包含着很多有用的知识,因此如何从各种大型或密集数据库中发现所隐藏的、预先未知的信息,显的尤为重要,这正是数据挖掘所要完成的任务。关联规则挖掘是数据挖掘领域中成果显著而且比较活跃的研究分支。其主要研究目的就是从大型数据集中发现隐藏的、有趣的、属性间的规律,即关联规则。由于形式简单、易于理解而且是从大型数据库中提取知识的主要手段,因此,关联规则挖掘成为数据挖掘中的热点问题。关联规则挖掘过程包括:首先是将现有的数据库转换成事务数据库的形式(transaction database),然后采用适当的算法从事务数据库中挖掘出所有的频繁模式,最后由频繁模式生成有价值的关联规则。其中的第二阶段发现频繁模式是关键,它将决定关联规则挖掘的正确性和挖掘的效率。因此,大部分研究都集中在频繁模式的产生上。目前的频繁模式挖掘算法都过分的依赖于大量的计算,进而导致对内存空间的依赖,当参数需要调整时,造成重复的I/O扫描。这都无法满足对大型数据库挖掘的要求。因此寻求减少对内存空间的依赖,降低重复I/O扫描次数的新方法就成为文章的研究内容。通过研究发现,影响频繁模式挖掘算法效率的因素主要有两个:1数据库中事务布局方式的不合理;2算法本身存在的问题。所以本文主要从这两个方面进行改进。具体工作体现在以下三个方面:1、.敏感性分析在数据挖掘中的应用研究:数据挖掘被视为一种把数据转化为信息,把信息转化为行为,把行为转化为价值或利润的过程。最近的研究大都集中在静态环境中利润的挖掘。敏感性分析方法能够预测模型输出结果的变化率。本文研究了利用敏感性分析这一方法在动态环境中对利润挖掘所起的作用,最后给出了应用该方法对利润挖掘的执行步骤。2、在研究了传统的事务数据库布局方式:水平布局方式和垂直布局方式的不足之处,提出一种新的事务在数据库中的布局方式-交叉布局方式。该布局方式能够有效减少I/O重复扫描的次数,特别是当参数经常改变时。从而提高查找频繁模式的效率,进而提高关联规则挖掘的效率。3、提出一种新的频繁模式挖掘算法-QFP算法。该算法利用了交叉布局方式的数据存储结构,首先对每一个频繁项建立一棵QFP树,然后根据条件对每棵树进行挖掘,直到找出符合条件的频繁模式。此算法能够减少条件子树的生成数量,降低对内存空间的依赖和CPU的计算时间,从而提高关联规则挖掘的效率。