论文部分内容阅读
随着计算机技术的不断发展,数据挖掘和机器学习技术已经被广泛地应用于社会的各个领域。数据挖掘和机器学习中的一项重要研究课题是决策树分类,由于传统决策树分类方法不能解决诸如“将一只羊错误的分配到一群狼中”和“将一只狼错误的分配到一群羊中”所引起代价问题,从而提出了对代价敏感决策树学习(CSL)的研究。经过近十年的研究和发展,代价敏感决策树学习取得了丰硕的成果,相继提出了分类代价,测试代价,师资代价,计算代价,干预代价等不同类型的代价敏感学习技术,然而这些代价敏感学习技术的机制异构,在决策过程中常常假设这些代价是可以转化为统一单位,把所有涉及到的代价通过适当的映射转化成为统一的机制是一个不小的挑战,从而导致异构代价敏感决策树学习的研究。本文主要研究代价敏感决策树学习算法。主要介绍什么是代价敏感学习的概念、算法、集成分类器和随机森林,提出了一种新的异构代价敏感决策树算法、改进了异构代价敏感随机森林模型。并用实验证实了所提方法的可行性和有效性。本文的主要创新点如下(1)本文针对现存的代价敏感学习方法是一种基于假设所有的代价是能被转换成统的单位同种的代价敏感学习算法。显然构建适当的转换不同代价单位的函数是个挑战,为此提出了一种有效的方法,减少所造成的代价机制和属性信息的异质性。(2)在前人的基础上提出了一种新的异构代价敏感决策树属性分裂标准,使分裂属性更有效,所有不同的代价和属性信息一起被纳入分裂属性选择的过程,称为ASF为基础的分裂属性选择,并为此提供了异构代价敏感决策树(HCSDT)建树的方法。(3)对于传统的代价敏感决策树过度拟合的问题,利用了异构代价敏感决策树(HCSDT)作为随机森林的基分类器,设计一个全新且简单而有效的异构代价敏感随机森林分类器(Forest-HCSL),该算法充分利用了集成学习算法的优势,由许多个弱异构代价敏感决策树分类器结合形成一个强分类器,其分类准确度和误分类代价更低。实验表明本文设计的异构代价敏感随机森林算法,使分裂属性更有效,对过度拟合的问题更能快速有效的解决。(4)对随机森林的属性选择方法做了更进一步的改进,普通的随机森林算法在特征选择的时候只是单纯随机的在整个属性集中随机的选择分裂属性集由此可能造成单棵决策树的分类强度降低,针对这个问题,提出了基于信息熵改进随机森林分裂属性集选择方法。首先计算每个属性的平均信息增益率,根据计算出的平均信息增益率对每个属性赋予权值并进行排序。对排序后的属性集空间进行划分分为高重要度空间和低重要度空间,并按比例的在两个空间中随机的选择分裂属性作为单棵决策树的分裂属性集,以此增加随机森林单棵树的分类强度;其次,在构建单棵异构代价敏感决策树的过程中随机的选择一些分类决策树,对这些树随机性的选择一些分裂,在这些分裂中使用第二大值的ASF属性进行属性分裂。这样做的目的是增强随机森林里面单棵树和单棵树之间的平均相关系数。通过以上两种方法从而降低随机森林的误差上界,提高随机森林的整体性能。