论文部分内容阅读
随着数据库应用的不断深入,数据库的规模急剧膨胀,人们需要对这些数据进行分析,从中发现有价值的信息。数据挖掘技术的出现实现了这个目标。数据挖掘就是从大量的不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。关联规则挖掘作为数据挖掘领域的一个重要研究分支它的任务是发现所有满足支持度阈值和置信度阈值的强关联规则。近年来,关联规则挖掘研究己经成为数据挖掘中的一个热点,并被广泛应用于市场营销、事务分析等应用领域。关联规则挖掘算法是关联规则挖掘研究的主要内容,迄今为止已提出了许多高效的关联规则挖掘算法。本文首先介绍了数据挖掘的定义及主要的数据挖掘技术,以及数据挖掘的应用和发展趋势。接着详细描述了关联规则挖掘的基本理论和算法,并对Apriori算法进行了一定的优化。为了验证本文提出优化方法的有效性,在关联规则理论与研究的基础上,将改进后的算法应用于物流管理系统,实验结果证明了优化方法的有效性。本文的主要工作体现在以下两个方面:第一,对经典的Apriori算法做了全面的分析,针对Apriori算法的不足,本文给出了一种优化方法,该算法只扫描数据库一次,将数据库中的数据存于数组向量中。基于关联规则的性质,对扫描的事务数和项目数,连接步骤等进行压缩和优化,并且利用一维数组对候选2-项集进行计数,从而避免大量候选2项集的产生,有效解决了传统算法候选2项集的瓶颈问题,此算法与Apriori算法相比有明显的提高。第二,设计并实现了物流管理系统的开发,将Apriori算法优化方法应用到本系统中,将公司销售管理及配送管理的记录数据作为数据挖掘的对象,找到配送信息中货物类型、季节性、目的地信息与销售量之间的关联,以及驾驶员、货物类型、目的地、到货破损率之间的关联,并对产生的规则进行了解释和分析。