异构代价敏感决策树与随机森林核心技术

被引量 : 7次 | 上传用户:liuking
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的不断发展,数据挖掘和机器学习技术已经被广泛地应用于社会的各个领域。数据挖掘和机器学习中的一项重要研究课题是决策树分类,由于传统决策树分类方法不能解决诸如“将一只羊错误的分配到一群狼中”和“将一只狼错误的分配到一群羊中”所引起代价问题,从而提出了对代价敏感决策树学习(CSL)的研究。经过近十年的研究和发展,代价敏感决策树学习取得了丰硕的成果,相继提出了分类代价,测试代价,师资代价,计算代价,干预代价等不同类型的代价敏感学习技术,然而这些代价敏感学习技术的机制异构,在决策过程中常常假设这些代价是可以转化为统一单位,把所有涉及到的代价通过适当的映射转化成为统一的机制是一个不小的挑战,从而导致异构代价敏感决策树学习的研究。本文主要研究代价敏感决策树学习算法。主要介绍什么是代价敏感学习的概念、算法、集成分类器和随机森林,提出了一种新的异构代价敏感决策树算法、改进了异构代价敏感随机森林模型。并用实验证实了所提方法的可行性和有效性。本文的主要创新点如下(1)本文针对现存的代价敏感学习方法是一种基于假设所有的代价是能被转换成统的单位同种的代价敏感学习算法。显然构建适当的转换不同代价单位的函数是个挑战,为此提出了一种有效的方法,减少所造成的代价机制和属性信息的异质性。(2)在前人的基础上提出了一种新的异构代价敏感决策树属性分裂标准,使分裂属性更有效,所有不同的代价和属性信息一起被纳入分裂属性选择的过程,称为ASF为基础的分裂属性选择,并为此提供了异构代价敏感决策树(HCSDT)建树的方法。(3)对于传统的代价敏感决策树过度拟合的问题,利用了异构代价敏感决策树(HCSDT)作为随机森林的基分类器,设计一个全新且简单而有效的异构代价敏感随机森林分类器(Forest-HCSL),该算法充分利用了集成学习算法的优势,由许多个弱异构代价敏感决策树分类器结合形成一个强分类器,其分类准确度和误分类代价更低。实验表明本文设计的异构代价敏感随机森林算法,使分裂属性更有效,对过度拟合的问题更能快速有效的解决。(4)对随机森林的属性选择方法做了更进一步的改进,普通的随机森林算法在特征选择的时候只是单纯随机的在整个属性集中随机的选择分裂属性集由此可能造成单棵决策树的分类强度降低,针对这个问题,提出了基于信息熵改进随机森林分裂属性集选择方法。首先计算每个属性的平均信息增益率,根据计算出的平均信息增益率对每个属性赋予权值并进行排序。对排序后的属性集空间进行划分分为高重要度空间和低重要度空间,并按比例的在两个空间中随机的选择分裂属性作为单棵决策树的分裂属性集,以此增加随机森林单棵树的分类强度;其次,在构建单棵异构代价敏感决策树的过程中随机的选择一些分类决策树,对这些树随机性的选择一些分裂,在这些分裂中使用第二大值的ASF属性进行属性分裂。这样做的目的是增强随机森林里面单棵树和单棵树之间的平均相关系数。通过以上两种方法从而降低随机森林的误差上界,提高随机森林的整体性能。
其他文献
泥石流是一种暴发突然、历时短、致灾能力极强的自然灾害。川西地区地形地质条件复杂、地表破碎、雨季降水集中,是我国泥石流多发地区,损失严重。应加强对泥石流发育特征的研
随着焦炉大型化及焦炉技术装备水平的提高,研究大型焦炉基础结构中的设计问题极其重要。本文以太钢7.63m焦炉为例,分析了国内外焦炉基础结构的优缺点,并对焦炉基础结构设计、
有着医生和作家双重身份的毕淑敏,以平视的目光关注疾病,以一种聚焦"疾病现场"的在场叙事,叙述了当今社会医患关系的淡化和物化、安乐死的两难、临终关怀的完善、高科技的双
目的通过分析骨质疏松性椎体压缩骨折(OVCFs)患者的年龄、性别、病椎节段、骨水泥的灌注量、骨水泥的渗漏体积、骨密度及椎体的压缩率,探讨OVCFs患者经皮椎体成形术(PVP)术后
聚对苯二甲酸乙二醇酯(PET)具有良好的尺寸稳定性、化学稳定性、绝缘性等性能,在食品包装、农业生产、纤维纺织和生命科学等众多领域得到越来越广泛的应用。但由于PET分子链
随着工业现代化的发展,对自动化输送机的需求也日益增多,在汽车制造等行业中,需要一些地面柔性输送系统以提高制造过程的现代化程度,使用辊床输送系统进入汽车制造的焊装、涂
目的:建立肾和脑相关的理论基础——“肾脑相关”理论,并研究运用“肾脑相关”理论辨证论治尿毒症脑病,为尿毒症脑病的临床研究提供理论基础和研究方法,从而为中医学对尿毒症
20世纪中国绘画向西方学习,21世纪中国画家需要吸收和借鉴西方,去其糟粕取其精华,肩负创造具有本民族特色的油画语言形式的任务。油画风景写生课作为油画创作基础在油画风景
随着现代科技和全球经济一体化的发展以及市场竞争的加剧,我国企业结构正在调整,以适应信息革命的步伐,电子商务的应用日趋广泛,物流配送作为企业的基本活动,其作用也越来越重要。
通过实验与模型计算 ,分析了柴油 /汽油双燃料发动机准均质燃烧过程中粗暴现象的发生机理 ,研究结果表明 :柴油 /汽油双燃料发动机出现工作粗暴的主要原因是均质混合气区放热