论文部分内容阅读
数据挖掘通过从大量数据中提取感兴趣的知识、规律或更高层次的信息,可以有效的解决“数据爆炸而信息匮乏”问题。关联规则是数据挖掘领域中一个重要的研究课题,主要描述事务数据库中不同项集之间的有趣关联或相互关系,在电信业务、零售业交易、环境监测、工业生产、互联网服务等领域中应用广泛。随着高速数据获取、网络通信、数据管理等技术的发展,时效性高、动态变化的数据不断聚集,隐藏在其中的关联规则也必然会发生变化。及时高效的关联规则更新对于趋势分析、指挥调度、辅助决策、信息推荐等具有重要的应用价值。
现有的关联规则更新算法大多致力于解决增量更新本身,但很少同时考虑更新时机,不适于对实时应用中频繁更新的数据进行有效处理。针对此问题,本文提出了一种与时机判定相结合的关联规则增量更新算法。该算法在改进增量更新方法的同时,兼顾对更新时机的判定。在关联规则时机判定阶段,根据关联规则差异度确定关联规则更新时机。在关联规则增量更新阶段,计算含有非空子集个数之和最多的频繁项集,找出在更新数据集中仍然频繁的项集,根据Apriori性质,采用增强的剪枝策略修剪候选项集,减少需要计算的候选项集,加速关联规则的更新过程。
为验证与时机判定相结合的关联规则增量更新算法的有效性,本文主要从算法的执行时间和计算过程中需要存储的候选项集数量两方面进行测试。算法分析和实验结果表明,通过对更新时机的及时判定和候选项集的有效剪枝,关联规则的更新效率得以提高。该算法有效应用于基于关联规则的网上购物推荐系统中,可发现关联规则能够随系统中交易数据的变化而及时更新。