论文部分内容阅读
数据挖掘或知识发现是用于数据分析和理解、揭示数据内部知识的技术,在最近几年里已被广泛的研究,其中关联规则是数据挖掘的一个重要的问题。关联规则的挖掘必须经过概念提出、概念接受、广泛研究和探索、逐步应用和大量应用等阶段。目前,关联规则的基本概念和研究方法趋于清晰,它的研究正向着更深入的方向发展,大部分学者认为它的研究仍然处于广泛研究和探索阶段,迫切需要在基础理论、应用模式、以及挖掘算法等方面进行创新。同时,关联规则挖掘需要在挖掘效率、可用性、精确性等方面得到提升。因此,研究者需要探索新的关联规则挖掘理论和模型,需要对一些传统的算法进行改进;也需要研究新的更有效的算法等。鉴于目前数据挖掘技术和关联规则挖掘研究现状和发展趋势选择了这一课题开展相关工作。在关联规则理论方面,对关联规则的基本概念,关联规则的典型算法,及其算法研究新进展进行了全面地分类、归纳和总结,同时也针对各类算法的实用条件,算法间的差别进行了客观地比较。在关联规则挖掘算法方面,针对大数据集挖掘过程中对内存和CPU等系统资源要求较高的情况,在关联规则挖掘前提出以二进制序列集来组织数据,提高整个关联规则挖掘中项目集的存储效率;在关联规则挖掘方面提出两种数据结构构造算法,二进制序列密集树算法和频繁模式树的正负关联规则挖掘算法,前者首先是对数据进行压缩,把较大的事务数据集聚为一个相对较小的数据结构,用以计算二项集的支持度和致信度;然后在二进制频繁项集树上,利用二项集的支持度和致信度信息从树的顶层直至底层构造频繁项集,进而挖掘出所有的关联规则;同时为避免单一挖掘正关联规则的局限性,提出基于频繁模式树的正负关联规则挖掘算法,该算法将事务数据库中出现的正项目和隐含的负项目进行处理,打破了先挖掘正关联规则,其次再挖掘负关联规则这种单一的挖掘模式。这两种数据结构算法只需一次扫描整个数据库而且不产生侯选集就可以从数据库中挖掘所有的正,负关联规则,大大的提高了运算的效率。试验结果表明,该算法在挖掘效率、可用性,算法扩展性方面有较好的性能。该算法对数据挖掘的作用来说,具有一定的实用价值,一方面,它可以给研究数据挖掘关联规则的科研人员提供思路,供科研人员参考;另一方面,如果将其整合到其它现有的数据挖掘工具中,可以大大提高算法的实用价值。