基于多目标优化的代价敏感算法研究

来源 :西南石油大学 | 被引量 : 0次 | 上传用户:MARRYMAS
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机在众多领域的应用和发展,用户在使用和数据采集过程中所产生的数据规模出现指数型的增长,数据挖掘技术应用而生。数据挖掘最经典的十大算法之一就是代价敏感学习技术,代价敏感决策树算法的研究目的是通过决策树分裂属性,用户能够快速的做出样本的决策。比如医院根据病情库来诊断病人的得病概率时,加入了时间代价,如果诊断病情的时间越久会对病人产生不好的影响,那么就对诊断附加一个大的代价惩罚。代价敏感学习的本质是在保持决策系统分类能力不变的前提下,增加代价指标,最大的减少分类总代价,帮助人们高效地做出决策。针对代价敏感决策树问题,很多决策树算法已被提出。最常见的C4.5算法的原理易于理解,分类的准确率较高,但其在构造决策树的过程中需要对整个数据集进行多次扫描和重复排序,导致该算法的效率明显降低。CART树算法灵活,允许有部分错分成分,面对存在缺失值、变量数多等构建问题时显得非常稳健,但生成的决策树分支大,规模较大。先前的决策树分类研究是引入单个代价指标,或者分类过程以信息熵为依据,而且得到的结果经常出现过度拟合。或者在针对不平衡数据集构建过程中,代价敏感决策树仅仅考虑总分类代价,没有考虑到同一节点不同样本的差异性。当用户针对不纯度度量使用的计算方法不同时,得到的实验结果也相差较大。基于此,本文提出了一种结合测试代价和信息增益的多目标代价敏感决策树,并针对数据不平衡问题提出了一种新型的不纯度度量指标。一方面有效地降低了分类总代价,提高算法分类性能,另一方面提出一种新型的不纯度度量,解决了不同节点之间的代价差异问题,能够解决不平衡数据的有效分类。本文算法研究方法分为以下两个部分:1.传统的代价敏感决策树算法往往只考虑到误分类代价,这对于含有测试代价的决策系统来说,并不适用。因此,本文算法开始部分先考虑测试代价和误分类代价两种,提出了基于两种新型代价的代价敏感ID3算法。两者的主要思想在于:使用本文提出的新型属性分裂标准来代替传统的、单一的以信息增益分裂属性为标准的分类算法。将提出的基于完全测试代价属性分裂标准的代价敏感决策树算法(CT-ID3)和基于测试代价-信息增益属性分裂为标准的代价敏感决策树算法(TIG-ID3)两种分别与传统ID3算法进行比较试验;2.将上述实验提出的基于测试代价和信息增益结合的多目标代价敏感决策树构建随机森林,并在构建过程中提出了一种新型的不纯度度量。建树过程中不仅考虑了决策树的总代价,同时还考虑了同一节点处对于不同样本的代价差异性。然后,执行随机森林算法,对多个数据集进行K次抽样,先构建K个基础分类器。接着,基于本文提出的不纯度度量方法,通过分类回归树(CART)算法来构建决策分类树,从而形成决策树森林。最后,将形成的随机森林通过投票的机制做出最后的数据分类决策。本文实验采用了开源WEKA平台下的UCI的数据集,在每个数据集上针对不同的分类指标度量来验证测试代价和信息增益两个指标的性能,然后将决策树扩大到随机森林,提出一种基于新型不纯度度量的代价敏感决策森林算法。通过大量的与已有算法的对比,结果表明:1)本文提出的基于测试代价和信息增益算法比依据单一测试代价指标分类的算法效率明显高;2)本文提出的新型不纯度度量在随机森林构建过程中优势明显;3)本算法能有效解决不平衡数据问题,能够解决同一节点对不同样本的差异性问题。
其他文献
本文从理论出发,分析抗共振环(Anti-Resonant Ring -ARR)稳定调Q激光脉冲的作用.将新型调Q晶体Cr4+∶Y AG置于ARR中心,在平-ARR介稳腔中获得能量起伏0.34%的高稳调Q单脉冲输出.
介绍一种基于单片机和CPLD结合的多光谱CCD相机下位机系统的设计实现.利用CPLD扩展多光谱相机下位机的输出控制端口.分别用图形输入法和VHDL硬件编程语言作为CPLD的输入方式,
2011年10月27至30日,“‘海伦钢琴’第三届全国高校音乐学(教师教育)钢琴专业教师演奏邀请赛”在苏州大学独墅湖校区隆重举行。
视网膜血管阻塞是一种常见的眼科疾病,严重地危害着人类视力健康,由于技术限制目前没有有效的治疗手段。本课题研制的视网膜血管注药器,集成于眼科手术机器人末端,采用将药物直接注射进视网膜血管的方法,达到治疗目的。从手术经验角度出发,结合软组织交互力分析,设计了具备高精度、微力感知能力的视网膜血管注药器,并通过实验检验其可行性。高精度机械结构的设计是实现手术注射的基础。本课题分析了整个手术的操作流程与需求
以经典曲目《查尔努斯的猫》和横跨钢琴上所有曲调的《琴键飞舞》震撼开场的德国博兰斯勒钢琴家——欧米勒子子宝中国巡演席卷了宁波、青岛、南京、昆明和呼和浩特等地。近目
广州某超高层建筑施工用的M900D塔吊采用穿墙螺栓连接式牛腿,与常规预埋式牛腿支座不同,此类牛腿支座可重复使用,大大节约了预埋构件的钢材用量并降低了施工难度。现场加载试验
本文研究了壳聚糖的成膜机理,利用无素无味的壳聚糖为主要原料,制成复合水果涂膜保鲜剂,对石榴进行了涂膜保鲜研究,保鲜效果好,延长了水果的贮藏期.
目的探讨患者应用俯卧位通气的护理效果。方法患者应用俯卧位通气及相关护理措施。结果经俯卧位通气治疗后患者症状明显改善,顺利转出ICU。结论俯卧位通气能改善患者的症状.加
装饰音的麻烦是个历史和大众趣味问题。演奏家为此争吵打架,音乐家一边扇风旁观。可能我不太专业,也不太认真的缘故,实在不知为何要把装饰音搞得那么复杂—我绝对不敢对我音
纪录片《华尔街》的出现,为中国财经类纪录片打开了一个新的篇章,《华尔街》的总导演李成才也因此被称作“中国金融纪录片开拓者”。继《华尔街》之后,李成才导演创作的财经