论文部分内容阅读
数据挖掘技术从一开始就是面向应用的,使用数据挖掘工具进行数据分析可以方便地获得重要的数据模式并应用于决策。关联规则挖掘作为数据挖掘的重要技术广泛应用于各大领域,特别是商业领域。随着数据集的大小和复杂度的增长,研究高效的关联规则挖掘算法,并增强其对不同数据集的适应性显得十分重要。关联规则挖掘是发现存在于数据集中的项目或属性间的关联关系。关联规则挖掘算法分两步实现,首先挖掘得到频繁项目集集合,然后根据频繁项目集集合得到强关联规则。Apriori算法是经典的生成频繁项目集的关联规则挖掘算法。随后,在基于Apriori算法的基础上提出了很多变体,不同的变体侧重于不同的改进方向。基于数组的关联规则挖掘算法,就是利用数组的结构特性提高了算法的挖掘效率。针对关联规则挖掘中,模式计数代价太高、I/O效率低下等问题,本文在详细分析Apriori算法的基础上,研究了基于数组的关联规则挖掘算法,针对算法中存在的问题:数组中存在大量的无价值元素、大量候选项集的产生,提出一种新的改进算法,该算法通过数据约束,仅生成用户感兴趣的频繁模式,有效地减少了模式计数代价,提高了挖掘质量,同时通过对算法采用数组压缩、改进连接步等方法进行改进,使得在每次数组扫描过程中都能生成不同长度的频繁模式集,能够在较少的数组扫描次数中挖掘出全部的频繁模式集,这对于提高关联规则挖掘的效率和质量,具有重要的理论和实际意义。在上述研究成果的基础上,以DELPHI7.0和SQL SERVER2000作为开发工具,设计与实现了基于数组的关联规则挖掘算法和改进算法的挖掘系统,系统使用的数据集为IBM数据生成器生成的5000条试验数据。论文中给出了该系统的流程图,详细介绍了系统的运行过程,系统运行结果表明,改进后的算法是可行的、有价值的。最后,分析了有待继续深入研究的问题和进一步拓展的方向。