论文部分内容阅读
数据挖掘就是从大量的数据中提取或者“挖掘”知识,因此数据挖掘又被称为数据库中的知识发现。它是一个涉及多学科领域的新兴学科,并随着这些学科的发展而不断发展。数据挖掘具有几个功能,关联分析就是其中一项非常重要的功能。 关联分析用于发现关联规则,关联规则描述了给定数据集的项之间的有趣联系。目前,已经提出了许多挖掘关联规则的算法,其中最著名的是Apriori算法及其变形。这些传统的算法大多存在项集生成瓶颈和难以确定合适的支持度阀值的问题,并且没有考虑数据库的被分析项的各自不同的重要性。为了解决这些问题,本文提出一个新算法——Baseset_Weight算法。 本文首先介绍了数据挖掘的基本概念、存在问题及发展方向。其次介绍了关联分析的基本概念、分类及一些常见的算法思想,其中着重讨论了挖掘关联规则的经典算法——Apriori算法的基本思想,并介绍了旨在提高该算法效率的一些变形算法。最后,针对如Apriori算法这样的传统算法存在的一些问题,提出了一种基于种子项和权的新算法——Baseset_Weight算法,并详细讨论了该算法的设计思路、设计过程及性能研究。