论文部分内容阅读
粗糙集理论是一种新的处理模糊和不确定性知识的数学工具。其主要思想是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。它与其他处理不确定性问题理论的最显著的区别是它无需提供问题所需处理的数据以外的任何先验信息。粗糙集理论认为知识就是人类和其他物种所固有的分类能力,粗糙集的一大优势就是其极强的分类能力[史忠植,2002]。传统的关联规则挖掘算法没有对数据集进行属性的约简,这将导致挖掘出的关联规则可能存在大量的冗余,不利于决策者的结果分析和决策。而且传统关联规则挖掘算法仅适用于布尔型(定性)的关联规则的挖掘,不能直接进行定量的规则挖掘。 有鉴于粗糙集的这些优势,粗糙集理论便被运用于关联规则的挖掘中。将粗糙集理论运用于关联规则的挖掘大致经历以下过程:预处理——将连续属性离散化,处理矛盾信息等,属性约简——包括两个过程,属性集的约简和属性值的约简,规则提取——关联挖掘。 论文主要工作: (1)对知识表达理论应用于粗糙集理论进行了研究,引用了知识量、平均知识量、熵和联合熵等概念,并将联合熵,即条件属性集和决策属性集的联合表达的平均知识量,应用于粗糙集的连续属性离散和属性约简中,作为处理的判别标准; (2)对连续属性离散化的一种方法“增类减类算法”进行了改进,提出了连续属性联合熵离散化算法。增类减类算法经历了两个过程:先将每个属性分为两类,此时判断新的属性集的支持度——是否满足与原属性集的支持度相等的条件,若相等,停止增类过程;若不等,则继续对下一个属性进行增类过程,直到满足条件。然后进行减类过程,依次对每个属性的分类数减少一个,判断新的支持度是否满足同样的条件,若满足则继续对下一个属性进行减类,若不满足,则停止减类过程,该属性的分类数即为此次减类前的分类数。而连续属性联合熵离散化算法根据支持度和属性离散的性质,只进行了一个减类过程,以初始时等价类作为初始分类,然后对各个属性按分级聚类法减少一个该属性等价数的分类,看是否满足条件属性对决策属性的联合熵相等的条件,若满足则对下一个属性进行同样的减类处理,直到支持度下降为止。 (3)为求属性集的等价类引入了等价类的二进制表示,属性集的等价类可以通过各个属性等价类的二进制表示的与运算来求解,通过属性及属性集的二进制表示还可以求解关联规则的支持度、兴趣度和准确度。在规则的发现中结合了支持度、兴趣度和准确度作为关联规则过滤的阈值。 (4)给出了决策属性等价类算法来求解决策表的属性等价类;给出了二进制支持度算法来为求解关联规则的支持度,而兴趣度和准确度都可以通过支持度来计算;为求解有效关联规则给出了有效关联规则算法。