论文部分内容阅读
近年来,随着机器学习算法和模糊理论的发展,模糊聚类和模糊分类算法受到了越来越多的关注。与传统聚类和分类算法相比,模糊聚类和分类算法具有模糊性和不确定性处理能力。并且,由于模糊理论的引入,增加算法的模糊可解释性(例如:语义可解释性),这进一步提升了模糊聚类和模糊分类算法的实用性。本文的研究对象为模糊聚类算法和模糊分类算法,具体是可解释的模糊聚类算法、传统的模糊分类算法和可解释的模糊分类算法。本文的研究内容分为两个方面:(1)对于模糊聚类算法,通过引入模糊算子,模糊化经典的密度峰值聚类算法DPC(Density Peaks Clustering Method),能够增加算法的模糊可解释性,同时提升其聚类性能;(2)对于模糊分类算法,具体选取三种典型的模糊分类算法作为研究对象,即模糊K近邻分类算法FKNN(Fuzzy K nearest neighbors classification method)、模糊随机森林算法FRF(Fuzzy random forest)和基于TSK(Takagi-Sugeno-Kang)模糊分类算法的集成算法。其中,对于FKNN分类算法,主要提升其分类性能;对于FRF和基于TSK模糊分类算法的集成算法,在保持其原有的语义可解释性的基础上,增加新的可解释性或者提升其可解释性,同时提升算法泛化性能和加快运行速度。本文的详细内容如下:(1)密度峰值聚类算法(DPC)的聚类性能严重依赖于基于内核的密度峰值计算方式,这就导致了以下两个问题:1)基于内核的密度峰值计算方式是否可以有效地处理数据集中的模糊和不确定的数据点;2)是否可以从软化分(模糊划分)的角度解释和重新定义密度峰的概念,从而增强聚类性能。针对以上两个问题,本文首先提出了模糊密度峰值的计算方式,从而提升聚类算法的模糊和不确定性的处理能力以及算法的灵活性,模糊密度值是由使用模糊算子(S模算子)耦合数据点与其邻居之间的模糊隶属度计算得到。然后,基于模糊密度峰值和DPC聚类算法的框架,提出了一种新的模糊密度峰值聚类算法:FDPC聚类算法。FDPC聚类算法通过调节合适的模糊参数,不仅提高了算法的聚类性能,同时也提升了算法的灵活性。实验结果表明,在大多数情况下,通过为模糊算子选择合适的模糊参数,FDPC聚类算法具有较好的聚类性能和可解释性。(2)传统模糊K近邻分类算法(FKNN)通过为所有测试样本设置相同k值对测试样本进行分类,将严重削弱FKNN分类算法的分类性能。因此,为了探讨为不同测试样本设置不同k值的可行性,本文提出了一种自适应近邻的模糊KNN分类方法,即A-FKNN分类算法(FKNN with adaptive nearest neighbors method),A-FKNN分类算法可以为每个测试样本学习一个独特的最佳k值。在训练阶段,A-FKNN分类算法首先对所有训练样本使用稀疏重构模型进行自表示,然后学习得到每个训练样本的最优k值,并将其作为这个训练样本的新标签,最后基于所有的训练样本及其相应的新标签构建决策树(即A-FKNN树),其中A-FKNN树的每个叶子节点存储相应的最优k值。在测试阶段,A-FKNN分类算法通过搜索A-FKNN树确定每个测试样本的最优k值,然后运行FKNN分类算法预测该测试样本。此外,为了提高A-FKNN分类算法的测试速度,提出了A-FKNN分类算法的快速版本(FA-FKNN分类算法)。在训练阶段,不同于A-FKNN分类算法,FA-FKNN分类算法构建了A-FKNN树的快速版本(FA-FKNN树)。与A-FKNN树不同,FA-FKNN树的每个叶子结点存储最优k值和训练样本子集。实验结果表明,A-FKNN分类算法和FA-FKNN分类算法在分类精度上都优于对比算法,而且FA-FKNN分类算法的测试速度更快。(3)为了提高模糊随机森林算法(FRF)在高维数据集上的泛化性能和运行速度,本文提出了一种增强的模糊随机森林算法,即基于双重随机性和动态字典复制的FRF算法(Enhanced fuzzy random forest by using doubly randomness and copying from dynamic dictionary attributes)。E-FRF除了保留FRF原先的随机性外,尝试在每棵模糊决策树的候选特征和最佳分裂特征的构造过程中,引入双重随机性来增加算法的泛化性能。此外,为了避免计算所有候选特征的新的模糊信息增益(NFG),部分特征的NFG值可以直接从动态生成的字典中复制得到。并且,从理论上证明了E-FRF的一致性。实验结果表明,在大多数高维数据集上,E-FRF具有与对比算法相当的泛化性能,而且,E-FRF的测试精度和运行速度方面都优于FRF。(4)基于常用的“从全局粗糙到局部精细”的认知行为和最新的发现“简单但可解释的线性模型应该是集成分类器的基本组成部分”,本文提出了一种新的混合分类器,称为H-TSK-FC(Hybrid TSK fuzzy classifier)及其残差区块学习方法RSL(Residual sketch learning)。H-TSK-FC本质上集成了线性分类器和模糊分类器,因此其同时具有基于特征重要性和基于语言的可解释性。RSL的核心包括以下内容:1)使用提出的基于稀疏表示的线性子分类器训练程序,快速生成一个基于所有训练样本的所有原始特征的全局线性子分类器,以识别和理解每个特征的重要性,并将分类错误的训练样本的输出残差分割成若干残差区块。2)在每个残差区块上并行生成可解释的TSK模糊子分类器,具体的,使用增强的软子空间聚类算法ESSC(Enhanced soft subspace clustering method)和最小学习机LLM(Least learning machine)分别生成模糊规则的语义可解释前件和后件,最后,通过栈式堆叠这些可解释的TSK模糊子分类器得到“局部精细”的结果。3)测试阶段,对所有子分类器的输出使用提出的最近标签投票策略得到最终预测,从而提高H-TSK-FC的泛化性能。实验结果表明,与现有的深度或宽度可解释的TSK模糊分类器相比,H-TSK-FC不仅具有额外的基于特征重要性的可解释性,而且具有至少可比的泛化性能、较快的运行速度以及较好的语义可解释性(需要更少的模糊规则)。