异构代价敏感决策树与随机森林核心技术

被引量 : 7次 | 上传用户：liuking

【摘要】

：

随着计算机技术的不断发展,数据挖掘和机器学习技术已经被广泛地应用于社会的各个领域。数据挖掘和机器学习中的一项重要研究课题是决策树分类,由于传统决策树分类方法不能解

【作者】

：

黄小猛

【发表日期】

：

2013年01期

【关键词】

：

代价敏感学习决策树随机森林异构代价敏感学习集成学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机技术的不断发展,数据挖掘和机器学习技术已经被广泛地应用于社会的各个领域。数据挖掘和机器学习中的一项重要研究课题是决策树分类,由于传统决策树分类方法不能解决诸如“将一只羊错误的分配到一群狼中”和“将一只狼错误的分配到一群羊中”所引起代价问题,从而提出了对代价敏感决策树学习(CSL)的研究。经过近十年的研究和发展,代价敏感决策树学习取得了丰硕的成果,相继提出了分类代价,测试代价,师资代价,计算代价,干预代价等不同类型的代价敏感学习技术,然而这些代价敏感学习技术的机制异构,在决策过程中常常假设这些代价是可以转化为统一单位,把所有涉及到的代价通过适当的映射转化成为统一的机制是一个不小的挑战,从而导致异构代价敏感决策树学习的研究。本文主要研究代价敏感决策树学习算法。主要介绍什么是代价敏感学习的概念、算法、集成分类器和随机森林,提出了一种新的异构代价敏感决策树算法、改进了异构代价敏感随机森林模型。并用实验证实了所提方法的可行性和有效性。本文的主要创新点如下(1)本文针对现存的代价敏感学习方法是一种基于假设所有的代价是能被转换成统的单位同种的代价敏感学习算法。显然构建适当的转换不同代价单位的函数是个挑战,为此提出了一种有效的方法,减少所造成的代价机制和属性信息的异质性。(2)在前人的基础上提出了一种新的异构代价敏感决策树属性分裂标准,使分裂属性更有效,所有不同的代价和属性信息一起被纳入分裂属性选择的过程,称为ASF为基础的分裂属性选择,并为此提供了异构代价敏感决策树(HCSDT)建树的方法。(3)对于传统的代价敏感决策树过度拟合的问题,利用了异构代价敏感决策树(HCSDT)作为随机森林的基分类器,设计一个全新且简单而有效的异构代价敏感随机森林分类器(Forest-HCSL),该算法充分利用了集成学习算法的优势,由许多个弱异构代价敏感决策树分类器结合形成一个强分类器,其分类准确度和误分类代价更低。实验表明本文设计的异构代价敏感随机森林算法,使分裂属性更有效,对过度拟合的问题更能快速有效的解决。(4)对随机森林的属性选择方法做了更进一步的改进,普通的随机森林算法在特征选择的时候只是单纯随机的在整个属性集中随机的选择分裂属性集由此可能造成单棵决策树的分类强度降低,针对这个问题,提出了基于信息熵改进随机森林分裂属性集选择方法。首先计算每个属性的平均信息增益率,根据计算出的平均信息增益率对每个属性赋予权值并进行排序。对排序后的属性集空间进行划分分为高重要度空间和低重要度空间,并按比例的在两个空间中随机的选择分裂属性作为单棵决策树的分裂属性集,以此增加随机森林单棵树的分类强度；其次,在构建单棵异构代价敏感决策树的过程中随机的选择一些分类决策树,对这些树随机性的选择一些分裂,在这些分裂中使用第二大值的ASF属性进行属性分裂。这样做的目的是增强随机森林里面单棵树和单棵树之间的平均相关系数。通过以上两种方法从而降低随机森林的误差上界,提高随机森林的整体性能。

其他文献

四川省金川县俄郎沟泥石流发育特征及治理工程研究

泥石流是一种暴发突然、历时短、致灾能力极强的自然灾害。川西地区地形地质条件复杂、地表破碎、雨季降水集中,是我国泥石流多发地区,损失严重。应加强对泥石流发育特征的研

学位

泥石流流速流量治理工程

7.63m焦炉基础结构的设计研究

随着焦炉大型化及焦炉技术装备水平的提高,研究大型焦炉基础结构中的设计问题极其重要。本文以太钢7.63m焦炉为例,分析了国内外焦炉基础结构的优缺点,并对焦炉基础结构设计、

期刊

7.63m焦炉基础结构抗震设计抵抗墙

毕淑敏小说中疾病叙事的生命伦理学意蕴

有着医生和作家双重身份的毕淑敏,以平视的目光关注疾病,以一种聚焦"疾病现场"的在场叙事,叙述了当今社会医患关系的淡化和物化、安乐死的两难、临终关怀的完善、高科技的双

期刊

毕淑敏疾病叙事生命伦理学尊重生命

经皮椎体成形术骨水泥渗漏的相关因素分析

目的通过分析骨质疏松性椎体压缩骨折(OVCFs)患者的年龄、性别、病椎节段、骨水泥的灌注量、骨水泥的渗漏体积、骨密度及椎体的压缩率,探讨OVCFs患者经皮椎体成形术(PVP)术后

学位

经皮椎体成形术骨水泥渗漏渗漏体积灌注量压缩率

PET表面功能化和共混改性的辐射化学研究

聚对苯二甲酸乙二醇酯(PET)具有良好的尺寸稳定性、化学稳定性、绝缘性等性能,在食品包装、农业生产、纤维纺织和生命科学等众多领域得到越来越广泛的应用。但由于PET分子链

学位

PET表面改性辐射接枝交联PS微球增容PET增韧

基于多杆系统的高速辊床研究与优化设计

随着工业现代化的发展,对自动化输送机的需求也日益增多,在汽车制造等行业中,需要一些地面柔性输送系统以提高制造过程的现代化程度,使用辊床输送系统进入汽车制造的焊装、涂

学位

输送系统高速辊床优化设计疲劳寿命

肾脑相关理论辨治尿毒症脑病的临床研究

目的：建立肾和脑相关的理论基础——“肾脑相关”理论,并研究运用“肾脑相关”理论辨证论治尿毒症脑病,为尿毒症脑病的临床研究提供理论基础和研究方法,从而为中医学对尿毒症

学位

肾脑相关理论尿毒症脑病临床研究

油画风景写生和油画风景创作的关系研究

20世纪中国绘画向西方学习,21世纪中国画家需要吸收和借鉴西方,去其糟粕取其精华,肩负创造具有本民族特色的油画语言形式的任务。油画风景写生课作为油画创作基础在油画风景

学位

写生创作中西结合主观个性

基于证据推理的物流配送综合评价模型研究

随着现代科技和全球经济一体化的发展以及市场竞争的加剧，我国企业结构正在调整，以适应信息革命的步伐，电子商务的应用日趋广泛，物流配送作为企业的基本活动，其作用也越来越重要。

学位

物流配送综合评价模型证据推理

柴油/汽油双燃料发动机粗暴现象的发生机理及控制措施

通过实验与模型计算 ,分析了柴油 /汽油双燃料发动机准均质燃烧过程中粗暴现象的发生机理 ,研究结果表明 :柴油 /汽油双燃料发动机出现工作粗暴的主要原因是均质混合气区放热

期刊

双燃料柴油机均质燃烧粗暴

异构代价敏感决策树与随机森林核心技术

与本文相关的学术论文