论文部分内容阅读
关联规则是数据挖掘技术的一种方法,侧重于确定数据集中不同属性之间的联系,找出满足给定支持度和置信度阈值的多属性之间的依赖关系。这样的规则可以应用于商品货架设计、存货安排以及根据购买模式对用户进行分配等。传统的关联规则很少考虑关联规则的时间适用性,事实上,每个关联规则都有其成立的时间区域。因此,在挖掘关联规则时附加上某种时态约束会使规则能更好地描述客观现实情况,这样有助于揭示事物发展的本质规律,使得发现的知识更具有现实意义;加上某种时态约束的规则称为时态关联规则。时态数据挖掘作为数据挖掘的一个新的课题,引起了人们极大的关注,其中时态关联规则的挖掘,已经成为众多学者研究的热点之一。本论文首先介绍了数据挖掘有关的概念、技术和研究现状,并介绍了关联规则挖掘的基本理论及经典挖掘算法,并予以算法分析;最后,对时态数据挖掘及时态关联规则挖掘技术进行了论述。针对传统数据挖掘在每一次产生候选项集时都要扫描一遍事务数据库,而用于关联规则挖掘的事务数据库的规模通常是非常大的,需要很大的I/O负载,这样势必影响了算法的效率。基于此,本文提出了两种时态关联规则的改进方法。一种改进方法是在扫描数据库的过程中逐步减小用于将来扫描的事务集,使事务数据库的规模越来越小,从而提高算法的效率;另一种方法是改变挖掘顺序的方法,即先不考虑时间因素而按照普通关联规则进行数据挖掘,然后再考虑时间约束的方法,并结合高效率的优化算法,使得算法的性能有很大的提高,并给出这种方法的性能分析。