WILD:基于加权信息损耗的离散化算法

来源 :南京大学学报:自然科学版 | 被引量 : 0次 | 上传用户:khsim
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实应用中常常涉及许多连续的数值属性,而目前许多机器学习算法则要求所处理的属性具有离散值.基于信息论的基本原理,提出一种新的有监督离散化算法WILD,它可以看成是决策树离散化算法的一种扩充,其主要改进在于考虑区间内观测值出现的频度,采用加权信息损耗作为区间离散化的测度,以克服决策树算法离散不均衡的问题.该算法非常自然地采用了自底向上的区间归并方案,可以同时归并多个相邻区间,有利于提高离散化算法的速度.实验结果表明该算法能够提高机器学习算法的精度.
其他文献
通过高压试验、解体分析,发现某110kV电容式电压互感器电磁单元绕组存在匝间短路,产生油箱内部过电压现象,最终导致油箱发热缺陷。同类产品型号存在与该故障相类似的家族性缺
目的综述目前能够判断肝内胆管细胞癌预后的各种分子生物学指标,以期促进肝内胆管细胞癌患者后续治疗的制定与开展,提高患者的生存率和生存质量。方法应用Pub Med及CNKI期刊
目的:探讨产后出血的原因和相关危险因素。方法:回顾性总结妇产科分娩的产妇资料共计60例。结果:产后出血组中多胞胎3例(占10.0%),单胞胎27例(占90.0%),与正常分娩组相比差异
为解决无放坡空间的深基坑支护问题,保证深基坑及周边建筑物的安全。基坑开挖前打入微型钢管桩,随着基坑的开挖逐层打锚杆索,通过对锚杆索施加预应力,有效的控制边坡变形。工
思想政治课是新时期高校政治教育的主渠道,教学内容和模式应与时俱进地变革,利用“红色文化”资源把大学生思想政治教育与主题实践活动相融合,实现新型的体验式教学模式,这种
与制造业协同,是生产型服务业的战略选择,既有助于生产型服务业的服务创新,也有助于制造业的自主创新和产业结构升级。为提高协同效率,获得预期的协同收益,生产性服务企业需要具备
随着时代的发展,我国已经进入了互联网时代,我国各方面都取得了一定发展,互联网使人们的生活变得更加便利。互联网由许许多多的网站组成,根据调查研究,人们一天之内通常会打
近日,记者从高要区获悉,该区今年23个省、市重点建设项目一季度完成投资31.71亿元,占年度投资计划的35.8%,完成投资进度位居全市首位。$$今年来,高要区坚持产业强区不动摇,大力实施
报纸
土地利用和植被覆盖变化研究,是当前国际科学研究的前沿领域之一,是研究气候变化的重要基础.特别是如何获得过去植被覆盖变化的定量信息对于进行气候模拟至关重要.在根据文献研究
对信息技术投资与经济绩效关系的研究进行梳理和总结,从研究领域、研究方法和研究结论几个方面进行分析性综述,其中特别分类总结研究者在研究过程中对相关变量测度方法的选择,最