论文部分内容阅读
近年来,信息技术已逐渐应用到社会生产及服务的各个方面,随之涌现出海量且不断增长的数据。如何从海量,尤其是动态变化的数据中挖掘出其蕴含的规律,辅助决策,并使数据与信息技术相辅相成,共同推进和完善,成为时下研究的热点。对此,诸多研究人员从不同角度展开了深入研究,关联规则挖掘成为重要领域之一,这些研究为该领域打下了坚实的基础。本文通过分析关联规则研究领域存在的缺陷,针对不断增长变化的数据集及用户需求,从基础算法的改进开始,对增量式关联规则更新进行研究。首先分析了关联规则挖掘的经典Apriori算法及相关改进算法的缺陷,运用集合运算思想进行优化,提出了一种新的关联规则挖掘算法即TSApriori算法,将频繁项集及其对应的事务分别用集合表示和运算,为后文关联规则增量式更新提供理论与数据基础。对产生的频繁项集,通过构建频繁项集树,生成关联规则,在构建过程中,引入相关度的概念,对备选规则进行验证,保证生成规则的精度和关联性。其次,基于TSApriori算法,结合FUP算法及IUA算法思想,提出了关联规则增量式更新算法IUTS算法,以适应不断增长的数据集及变化的参数阈值。最后,以大连市公安局系统的行政及刑事案件数据为例,对本文提出的频繁项集挖掘算法、关联规则生成算法以及增量式更新算法进行了验证和应用。本文提出的TSApriori算法只需扫描一遍数据库,且优化了连接操作,执行过程中不会产生候选K项集,提高了频繁项集挖掘的效率。通过构建频繁项集树优化关联规则的生成,有效的降低了冗余和虚假规则的生成,整体上提高了算法的效率和准确性。应用IUTS算法,动态更新关联规则,充分利用了已有结果集,避免了数据库的重复扫描,具有高效性和良好的可扩展性。