论文部分内容阅读
数据挖掘(或知识发现)出现于20世纪80年代末,目前已经成为人工智能和数据库等领域的研究热点。它有着广阔的应用前景,并将在新的世纪里在各个领域发挥其强大的生命力。R.Agrawal等在1993年提出了关联规则问题,现在关联规则已经成为数据挖掘研究的重要方向,并且吸引了众多学者和专家的关注。关联规则挖掘的典型算法是由R.Agrawal等提出的Apriori算法。Apriori算法在计算侯选项目集的支持度时需要多次扫描整个数据库,而随着K的增大,不仅K维项目集的数目减少了,而且能包含这些项目集的事务也是很少的。由于数据规模大且时常更新,使得采掘效率较低,必须设计更有效的算法。另外,当数据库中增加新的数据时,现有的多数算法要重新扫描整个大型数据库,而且现有算法中项目集的支持度是基于整个数据库计算的,当新增的数据中出现新项目时,即使包含新项目的项目集频繁地出现,现有算法常把这些项目集作为非频繁项目集,由此产生的关联规则不能反映最近的商业活动。基于数据挖掘的研究现状和关联规则挖掘算法存在的问题,本文主要进行了以下的研究工作:(1)数据挖掘技术的分析与研究。在介绍数据挖掘基本概念的基础上,对数据挖掘与传统分析方法、数据库中的知识发现和联机分析处理做了深入地分析和比较,对数据挖掘的对象、可发现的模式进行了详细地分类、归纳和总结,对数据挖掘常使用的技术做了介绍和分析。(2)关联规则数据挖掘技术的分析与研究。在提出关联规则基本概念的基础上,本文对关联规则的种类进行了全面地分类、归纳和总结,对关联规则的典型挖掘算法及其基本思想进行了详细地归纳、分析和研究,对各算法之间的差别进行了客观地比较。同时,也详细地讨论了提高算法效率的各种优化技术,客观地分析了它们的优缺点和利与弊。(3)针对Apriori算法的不足,提出了一种新的关联规则的高效挖掘算法。新算法根据支持度对事务数据库进行筛选删除操作,使得在计算候选集支持度时,所扫描的事务数据库比原来的事务数据库小,从而提高整个算法的效率;同时,采用了一种新的产生候选集的算法,该算法避免了原有算法在产生候选集时,对频繁集的多次扫描,提高了效率。(4)作为一个应用,本文对CRM做了较全面地分析,结合数据仓库知识,探讨了如何把数据挖掘技术及关联规则挖掘应用于CRM中,辅助企业较好地管理客户。