论文部分内容阅读
本文主要研究关联规则挖掘理论及其算法模型在粗糙集知识表中的应用。首先,在文中系统介绍了数据挖掘的定义、方法、发展方向,针对其中的关联规则挖掘,讨论了各类关联规则算法。由于关联规则挖掘方法会产生大量规则,为了挖掘出用户感兴趣的规则,本文提出一种利润约束的关联规则挖掘算法。此外,借鉴关联规则算法模型的思想,提出一种获取缺省规则的新方法MDRBapriori,从决策表中提取具有一定支持度和可信度阈值的不确定规则。在本文中,主要做了以下工作: (1)给出了关联规则的定义,说明了挖掘关联规则的意义,研究了关联规则挖掘的步骤,并且探讨了关联规则挖掘存在的问题及发展方向。 (2)针对关联规则算法存在的一些问题,详细分析了目前提出的有关关联规则兴趣度的各种主观和客观评价方法。本文引入企业关注的领域知识——利润,提出基于利润约束的关联规则挖掘方法,以增强规则的有趣性,提高规则挖掘的针对性。 挖掘出的关联规则,加上利润度量,就可以分析出哪些商品的搭配可以获得最大的利益。一般的关联规则只是单纯的项目与项目之间的一种关系,典型的就是买A的同时会买B的可能性的一种趋势分析。而我们加入量化参数利润分析关联规则,拓宽了关联规则的表达能力,让决策者对于关联规则的意义有更进一步的认识,并从中找出能使销售利润最大化的最佳商品促销方案。 在关联规则算法的“支持度——置信度”框架中,是从“大处”着眼,关注的是出现频数较高的项目集,要挖掘符合用户预期的利润要求的模式,不得不从“小处”着眼,这是因为存在着“20%的业务带来80%的利润”这样的领域知识。本文利用相对支持度的概念来挖掘稀有数据,再进一步结合利润量参数作为约束条件,这样就可以求出零售事务数据库中所有满足用户利润要求的关联规则,不论其支持度的高低,都可以运用本文的算法挖掘出来。 (3)简要介绍了粗糙集的基本概念以及一般的属性约简方法,着重分析了Mollestad和Skowron提出的缺省规则的发现算法——投影算法的算法框架及性能。 (4)针对投影算法的一些不足,扩展了缺省规则的定义,提出一种获取缺省规则的新算法——MDRBapriori算法。本文通过对投影算法和关联规则算法模型的详细分析,发现它们求解问题的实质是相同的,因而具有一种方法被另一种方法替代的可能性。因此,基于Apriori算法提出缺省规则挖掘的新算法MDRBapriori算法,它是独立于粗糙集方法但可以获取大致相同的规则的一种方