代价敏感决策树构建方法的研究

来源 :大连海事大学 | 被引量 : 1次 | 上传用户:tinnagirl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
决策树算法因它简单高效、知识提取简单、生成规则易于理解等优点,在数据挖掘领域占据十分重要的地位。然而,现实生活中涉及代价的问题普遍存在,传统的决策树算法已无法满足代价的需求。因此,将决策树和代价敏感学习相结合的算法研究显得尤为重要。在已有的代价敏感决策树算法中还存在很多不足,例如:用于属性结点选择的启发函数中参数值难以确定;已有算法在小数据集上表现不错,但在大数据集上效率明显降低;决策树模型由于没有使用恰当的剪枝策略导致出现过拟合现象,泛化能力较低。本文针对已有代价敏感决策算法的不足,提出以下优化方法:(1)本文针对已有代价敏感决策树算法中分类代价偏高以及存在多值属性偏颇问题,引用了 CS-C4.5算法的启发函数,并对其进行了优化,优化后启发函数的特点是当一个属性再次被测试的时候退化成了 C4.5算法;并引入自适应选择参数机制,构建了 ADP算法。实验证明,优化后的ADP算法在构建树的过程中能折中考虑模型自身的分类能力、测试代价和误分类代价三方面信息。(2)受“概率坚持剪枝”策略的启发,本文对它的对偶策略——“概率拒绝剪枝”策略进行了研究,该剪枝策略的思想为:根据剪枝规则确定决策树应该被剪枝时,算法仍然以一定的概率拒绝剪枝。对比实验证明,“概率拒绝剪枝”策略能够进一步减小模型的平均分类代价,以及解决决策树模型的过拟合问题,提高模型的泛化能力。(3)本文针对已有代价敏感决策树算法在高维性、不平衡性的数据集上效率较低的不足,在决策树的构建过程中引入了自适应选择切分点(Adaptive Selecting the Cut Point,ASCP)机制和自适应删除属性(Adaptive Removing the Attribute,ARA)机制。ASCP机制可以大大减小计算的复杂度,提高算法效率。ARA机制可以在建树过程中自适应的除去一些对决策树影响较小的属性,简化了属性选择的过程。对比实验证明,新机制的引入可以大大提高决策树的构建效率,在大数据集上表现更优。
其他文献
目的观察鼻渊软胶囊联合头孢呋辛治疗急性鼻窦炎的临床疗效。方法随机选取急性鼻窦炎患者70例,随机分为头孢呋辛联合鼻渊软胶囊治疗组(联合治疗组)和头孢呋辛单独治疗组(单独
为了解肠杆菌科细菌超广谱β内酰胺酶(ESBL)的产生情况,指导临床医生合理地使用抗生素,防止医院感染及EBSL的暴发流行,我们检测了1997年6月~1997年11月分离到的60株肠杆菌科细菌EBSL的产生情况,现报告如下。
近年来,中国从中央电视台到地方省台对频道间和节目间的响度差异问题给予了越来越多的关注,但由于响度差异问题的根治是一个系统工程,响度差异调控的效果还不尽如人意。对国际和
当前,学术人违反学术道德的事情屡有发生,其原因是多方面的,既有体制上的弊病,社会风气的影响,也和教育的失误有关。本文从教育的角度提出学术道德教育是研究生德育的重点,探讨了学
21世纪初期,临近空间这一不同于传统意义的空域出现,对人类的空间开发进程具有里程碑式的意义,其因重要的开发应用价值而迅速在国际上引起广泛关注。然而,临近空间的法律地位
针对采用传统PID控制的直流无刷电机调速系统存在的控制精度较低,控制效果不佳的问题,设计了以STM8S单片机为核心芯片基于自整定模糊-PID控制的直流无刷电机调速系统。在分析
日前,新证券法开始正式实施,全面推进注册制改革也随之拉开帷幕。笔者认为,随着注册制改革的全面推进,新股发行将会出现三方面重要的变化,这种变化将会重塑A股市场的新股发行生态
报纸
“写意性”内涵博大精深,源远流长,是我国传统文化的特质,也是个复杂的大课题。笔者以为诗文题目本身就集中蕴含了“写意性”元素。本文以诗文题目为切入点,分析题目与诗文的
随着经济社会的发展,人们越来越重视健康,因此传播健康知识的养生类节目受到人们的关注。本文阐述了电视养生节目对受众的影响,以及存在的问题。
[解读与思考]洛克菲勒是美国历史上大名鼎鼎的石油大王。"我把失败当作一杯烈酒,咽下去的是苦涩,吐出来的却是精神。"这句话见诸于他写给儿子的信——《洛克菲勒留给儿子的38封
期刊