论文部分内容阅读
分类是数据挖掘中的一个重要课题,在模式识别、统计学、机器学习等领域有着广泛的应用。而基于模糊规则的分类算法有着分类精度高、分类结果具有语义性、可解释性、容易被用户理解等优点。因此,本文主要研究两种基于模糊规则的分类算法,一种是基于数据的模糊规则分类器构建,另一种是基于公理化模糊集(Axiomatic Fuzzy Sets,AFS)的模糊斜决策树(FODT)构建。主要内容包括:(1)提出了一种基于数据的模糊规则分类器构建算法。首先利用前向贪心的快速属性约简算法(NRS_FS_FAST)对数据进行预处理。在设定邻域大小时,用基于属性标准差的阈值向量来设定阈值,避免了单一设定邻域大小造成决策属性对数据密集的属性的依赖度过大,进而对属性约简带来较大误差的弊端。另外,在简化规则库时,使用规则出现的频率来计算该规则的置信度,充分考虑了多个样本发挥的作用,解决了传统置信度算法只考虑一个样本造成分类器不稳定的缺点。最后,为了检验本章算法的优越性,将该算法与6种传统的分类算法在8组UCI数据集上进行了准确率和规则数的比较。实验结果表明,本章算法的平均分类准确率最高,并且规则也很简单,具有很好的语义性和可解释性。(2)提出了一种基于AFS的模糊斜决策树构建算法。首先用NRS_FS_FAST算法对数据进行预处理,避免了冗余属性的影响。其次,基于AFS理论自动生成隶属函数,减少了人为选择隶属函数时的主观性,克服了传统斜决策树没有语义解释的问题。然后基于模糊置信度设计了一种有效提取模糊规则的方法(FREA),并利用提取到的模糊规则构建FODT。相对于传统决策树在每个非叶子节点上仅仅考虑一个属性,FODT的生长取决于由若干个属性组成的模糊规则。另外,FODT的构建过程受阈值δ的影响,因此采用遗传算法对参数δ进行优化,使其既可以保证分类准确率又可以尽可能地减少树的规模。最后,将FODT与传统决策树(C4.5、LADtree、BFTree、Simple Cart和NBTree)以及模糊规则决策树(FRDT)在9组UCI数据集上进行了对比实验。实验结果表明FODT的平均分类准确率最高,平均规则数也少于传统决策树。所进行的Holm检验说明FODT在分类准确率上显著优于传统决策树。最后,对上述两种分类算法进行了总结,并对以后的研究方向与内容进行了展望。