论文部分内容阅读
可解释性是数据挖掘领域的研究热点,当数据处理结果具有可解释性时才能为决策者提供一种透明的指导作用。公理模糊集(Axiomatic Fuzzy Sets,AFS)理论是一种处理模糊不确定性和随机不确定性的新型方法,其隶属函数直接由原始数据的内在逻辑及信息转化而来。建立在公理模糊集上的分类方法能够产生具有较好语义的结果,并广泛应用于不同的领域,但其预测准确率往往是以降低结果的可解释性为代价的。本文通过结合传统AFS分类方法与其他工具,构建扩展分类方法,力求在准确率和可解释性之间达到一个平衡点。主要的研究内容如下:(1)传统AFS分类方法通过产生的模糊规则获取知识,当训练样本较多时,得到的类描述过于复杂,且其隶属函数易受到噪声数据影响。针对这一问题,引入非平稳割点样本选择算法,提出了基于样本选择的二型AFS分类方法。该方法利用非平稳割点样本选择算法设置合适的阈值保留非平稳割点附近样本,形成样本子集以减少训练样本的个数。同时借助区间二型隶属函数具有较强处理不确定信息的优势,在保证模型分类性能不变的前提下,简化类描述,使得语义描述相对简洁。(2)传统AFS分类方法采用最大隶属度原则确定测试样本的类标签,该原则忽略了测试样本的邻域信息。针对这一问题,本文设计了一种基于AFS理论和k近邻的可解释分类方法AFS-KNN。该方法首先将训练数据转化为语义描述,然后利用样本的隶属度来选择测试样本的k个邻域,将测试样本归为k个邻域中同类隶属度之和最大的一类,避免受到异常点的影响。通过对UCI数据库中的11个数据集进行比较,结果表明,AFS-KNN方法在可解释性和准确性方面较经典的k近邻方法、传统的AFS分类方法均有一定的提升。(3)在利用传统监督学习方法分类时,若要使分类结果更精确,往往需要较多的样本训练分类模型,但在实际问题中,标记样本的类标签比较困难且要付出较大的代价。针对这一问题,在AFS理论框架下,本文结合了代价敏感学习和互近邻方法构建了一种新的主动学习方法CS-AFS-KNN-MUL。该方法旨在训练尽可能少的带标签样本,利用代价敏感方法选取关键样本并将其加入到已知训练样本集中。此过程不断迭代,直到全部待测样本均获得类标签。通过对UCI数据库的13个数据集进行实验分析,结果表明CS-AFS-KNN-MUL方法在精度上优于其他方法,且总体的代价较低。