论文部分内容阅读
三支决策模型是决策粗糙集的核心思想之一,它将传统的正域、负域的二支决策语义拓展为正域、负域和边界域的三支决策语义,即把边界域决策也认为是一类可行的决策。
在决策粗糙集中引入了Bayes风险决策理论及三支决策语义,使该三支决策模型具有了容错能力,在不确定性知识获取和数据处理中具有更加可靠的理论依据和语义解释,即在处理分类问题时具有容错性和风险代价敏感性。该模型在人为给定损失函数矩阵后,即可计算出阈值(α,β)使用(α,β)实现三个域的划分。针对阈值获取问题,张提出了基于构造性覆盖算法的三支决策模型。该模型的优点是不使用任何阈值,根据构造性覆盖算法形成覆盖后,即可获得正域、负域和边界域,克服了基于决策粗糙集的三支决策模型获取阈值的人为主观性。并且该模型能够对落入边界域中的样本进行再次处理,使数据全部达到全部接受或拒绝。
但是,基于构造性覆盖算法的三支决策模型虽然解决了阈值的获取问题,与决策粗糙集相比,该模型不具有代价敏感性和容错能力。目前,随着数据挖掘和机器学习技术在实际问题中的广泛应用,人们越来越多的发现实际分类问题通常具有代价敏感特性。因此,本文提出了两种改进的模型:一、基于CCA的代价敏感三支决策模型,即将代价敏感引入到基于构造性覆盖算法的三支决策模型。引入代价敏感的目的是尽可能的减少划分的损失代价。二、基于CCA的鲁棒性三支决策模型,即使模型具有较好的抗噪能力和容错能力。
本文的主要工作包括:
1.本文梳理了三支决策理论的发展历程,详细的描述了经典三支决策模型的优缺点。对三支决策理论的研究现状进行了分析,并将代价敏感性和鲁棒性引入到基于构造性覆盖算法三支决策中,提出了基于CCA的代价敏感三支决策模型和基于CCA的鲁棒性三支决策模型。这为三支决策模型解决敏感数据集和带有噪声的数据集的分类问题提供了新的思路。
2.基于CCA的代价敏感三支决策模型将数据划分时损失函数的大小关系作为调整正域、负域和边界域的依据。对覆盖中的样本数进行统计之后发现,多数的样本点集中在少数的覆盖中,即大部分的覆盖中样本个数非常少。减少含有样本数较少的覆盖对样本分类正确率的影响相对较小。因此该模型通过减少半径较小的正覆盖和半径较小的负覆盖来调整正域和负域的大小。引入代价敏感后,通过尽量减少损失函数较大的误分类个数,来尽可能的减少划分损失。从而使模型达到如下的效果:在保证数据分类准确度的情况下,使分类时划分总代价最小。
3.基于CCA的鲁棒性三支决策模型通过改变覆盖半径的获取方法来增强模型的鲁棒性。该模型中覆盖半径的获取是可调节的,通过控制正覆盖中容错负样本的个数和负覆盖中容错正样本的个数,增强了基于CCA的鲁棒性三支决策模型的抗噪声能力。同时,我们发现,正覆盖和负覆盖的大小会随着容错异类样本个数的增多而增大,通过调节正覆盖和负覆盖的扩大的程度,正域和负域的大小的变化不同,因此该模型在具有鲁棒性的同时还具有代价敏感性。
在决策粗糙集中引入了Bayes风险决策理论及三支决策语义,使该三支决策模型具有了容错能力,在不确定性知识获取和数据处理中具有更加可靠的理论依据和语义解释,即在处理分类问题时具有容错性和风险代价敏感性。该模型在人为给定损失函数矩阵后,即可计算出阈值(α,β)使用(α,β)实现三个域的划分。针对阈值获取问题,张提出了基于构造性覆盖算法的三支决策模型。该模型的优点是不使用任何阈值,根据构造性覆盖算法形成覆盖后,即可获得正域、负域和边界域,克服了基于决策粗糙集的三支决策模型获取阈值的人为主观性。并且该模型能够对落入边界域中的样本进行再次处理,使数据全部达到全部接受或拒绝。
但是,基于构造性覆盖算法的三支决策模型虽然解决了阈值的获取问题,与决策粗糙集相比,该模型不具有代价敏感性和容错能力。目前,随着数据挖掘和机器学习技术在实际问题中的广泛应用,人们越来越多的发现实际分类问题通常具有代价敏感特性。因此,本文提出了两种改进的模型:一、基于CCA的代价敏感三支决策模型,即将代价敏感引入到基于构造性覆盖算法的三支决策模型。引入代价敏感的目的是尽可能的减少划分的损失代价。二、基于CCA的鲁棒性三支决策模型,即使模型具有较好的抗噪能力和容错能力。
本文的主要工作包括:
1.本文梳理了三支决策理论的发展历程,详细的描述了经典三支决策模型的优缺点。对三支决策理论的研究现状进行了分析,并将代价敏感性和鲁棒性引入到基于构造性覆盖算法三支决策中,提出了基于CCA的代价敏感三支决策模型和基于CCA的鲁棒性三支决策模型。这为三支决策模型解决敏感数据集和带有噪声的数据集的分类问题提供了新的思路。
2.基于CCA的代价敏感三支决策模型将数据划分时损失函数的大小关系作为调整正域、负域和边界域的依据。对覆盖中的样本数进行统计之后发现,多数的样本点集中在少数的覆盖中,即大部分的覆盖中样本个数非常少。减少含有样本数较少的覆盖对样本分类正确率的影响相对较小。因此该模型通过减少半径较小的正覆盖和半径较小的负覆盖来调整正域和负域的大小。引入代价敏感后,通过尽量减少损失函数较大的误分类个数,来尽可能的减少划分损失。从而使模型达到如下的效果:在保证数据分类准确度的情况下,使分类时划分总代价最小。
3.基于CCA的鲁棒性三支决策模型通过改变覆盖半径的获取方法来增强模型的鲁棒性。该模型中覆盖半径的获取是可调节的,通过控制正覆盖中容错负样本的个数和负覆盖中容错正样本的个数,增强了基于CCA的鲁棒性三支决策模型的抗噪声能力。同时,我们发现,正覆盖和负覆盖的大小会随着容错异类样本个数的增多而增大,通过调节正覆盖和负覆盖的扩大的程度,正域和负域的大小的变化不同,因此该模型在具有鲁棒性的同时还具有代价敏感性。