D-MetaCost:一种高效多分类代价敏感算法

来源 :厦门大学 | 被引量 : 0次 | 上传用户:zjx000a
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类问题一直是机器学习和数据挖掘的重要领域,传统的分类算法都旨在提高分类的准确性,最大限度的减少分类误差,这都是基于所有类的误分类代价相等。然而,当不同类别之间代价不同时,代价敏感分类就显得非常重要。目前已有很多代价敏感学习算法,如C4.5cs是C4.5的改进算法,把一般的分类模型转换成代价敏感分类模型的元代价处理方法,基于误分类代价对样本初始分布进行调整从而解决代价敏感分类的集成学习算法,以及基于最小代价的决策分类法。MetaCost算法是非常典型的代价敏感学习算法,它是Domingos于1999年介绍的将传统分类算法转换为具有代价敏感性的算法。首先,它通过一个“元学习”过程,在原始训练集上随机重采样并进行训练学习得到很多成员分类器,计算出所有实例样本的分类概率;再按照最小代价修改每个实例的类别,获得一个全新的数据集;然后在新的数据集上学习,得到最终分类模型。但是,如果原始训练集是不平衡的,随机重采样训练学习得到的分类器分类性能可能就不好;此外,MetaCost最终的分类器是单一模型,只考虑了重新标记后的数据集,这样预测的结果可能并不是最优的。本文考虑到这两个地方,进行了优化改进。本文介绍了新的代价敏感分类算法——D-MetaCost,它对MetaCost的不足之处进行了优化。在MetaCost算法训练集多次采样阶段,为了较好处理不平衡数据集的问题,可以采用基于训练集划分的方法进行重采样,如此得到的训练子集就是均衡的。具体操作如下:首先将多数类样本划分为几个子集,然后,将每一个子集与稀有类进行组合,构成不同的训练子集,这样训练得到的基分类器更有代表性。对于最终模型,可以运用集成学习原理,将多个分类器组合得到,这样可以明显增强最终分类效果。具体操作如下:计算各成员分类模型的正确率,将正确率很高的几个成员分类模型与新生成的分类模型进行组合,获得最终的分类模型。这样对于得到的最终模型,它在预测结果的正确性和代价层面会有很大提升。并且本文从理论和实验两个角度进行了论证,通过进行大量实验比对,得出在1000次试验中,D-MetaCost在绝大多情况下,都能比MetaCost和AdaBoost产生更好的分类正确率和代价,预测性能明显得到增强。
其他文献
近年来,环境污染、产品质量监管、员工权益问题等新闻屡见不鲜,社会公众对于企业社会责任实践情况的关注度与日俱增。多家证券交易所与国务院国有资产管理委员陆续发布了相关指引,使企业社会责任履行问题持续升温,企业在政策引导下开始披露企业社会责任报告,我国企业社会责任报告发展开始走上规范化道路。但是由于我国目前处于企业社会责任报告的发展初期,报告披露数量和质量令人堪忧,究其原因,在于企业经营者的披露动机不足
近年来,随着我国休闲农业旅游迅速发展,不同规模的采摘型休闲农业旅游园区不断涌现,农业企业面临着激烈的竞争压力,为了获取市场竞争优势,以顾客价值追求为导向,了解顾客行为意向成为农业企业关注的热点。本文以采摘型休闲农业旅游为背景,研究顾客感知价值构成维度,以及感知价值各个维度对满意度和行为意向的影响,从而为农业企业经营管理者制定规划管理决策提供有益参考,具有一定的理论和现实意义。首先,本文梳理了休闲农
牵引缓冲装置是SS4型电力机车的重要部件,其作用良好与否,直接关系着列车的运行安全,所以在检修工作中必须做好牵引缓冲装置的检修工作。由于牵引缓冲装置是日常检修工作中的
互联网技术的不断发展带来了网络与金融更为深度的融合带来了金融模式的不断创新,其中最为典型的就是P2P网络借贷。作为一种新兴的投融资理财模式,P2P在一定程度上填补了传统
作为"新爱尔兰"作家的代表,科伦·麦凯恩充分利用其多元的文化背景以及大胆的跨文化想象重构爱尔兰的历史,刻画传统的民族流亡身份,展示跨国际交流中新型的爱尔兰民族意识。
伴随设计美学概念在设计中的渗透,怎样把握设计作品的美学原则与内涵成为设计者新的研究课题。陈幼坚以古现今、融汇东西,以独特的设计理念成为中国当代平面设计界的领军人物
随着我国居民人均收入的提高以及追求高质量生活观念的加深,人们不再仅仅停留于简单的“吃饱喝足”等基本需求层面的满足,对于精神层面的追求也得到了越来越多的重视,购买鲜花产品的消费者也越来越多。鲜花不但能愉悦身心,也能陶冶情操,鲜花产品的多样化、高端化吸引来了越来越多的消费者,鲜花消费随之兴起。云南作为国内花卉重点产区之一,利用其有利的地理、气候优势,生产着众多的美丽花卉植物,目前,以昆明为主的云南鲜切
本报海南讯 通讯员陈成智 记者贺澜起报道 日前,海南省政府通过了《海南省关于深化医药卫生体制改革近期重点工作实施方案(2009~2011年)》。根据该方案,海南省将加快推进基
报纸
本文从传统中药鸡内金(Endothelium Corneum)中提取糖苷酶,选取分离介质对粗酶液进行了分离纯化,研究糖苷酶的基本酶学性质,考察了糖苷酶水解大豆异黄酮后活性物质的变化,并
建立了激光成像雷达探测目标的数学模型,分析了目标成像点轨迹形成的整个过程,讨论了距离像上的目标回波强度与目标距离之间的关系,得出了单次脉冲成像回波峰值点在像面上的