【摘 要】
:
提出了一种健壮有效的决策树改进模型R-C4.5及其简化版本.该决策树模型基于著名的C4.5决策树模型,但在属性的选取和分枝策略上进行了有效改进.在R-C4.5算法中,通过合并分类效
【机 构】
:
上海财经大学信息管理与工程学院,上海,200433
【出 处】
:
2005第一届中国分类技术与应用研讨会(CSCA)
论文部分内容阅读
提出了一种健壮有效的决策树改进模型R-C4.5及其简化版本.该决策树模型基于著名的C4.5决策树模型,但在属性的选取和分枝策略上进行了有效改进.在R-C4.5算法中,通过合并分类效果差的分枝,有效避免了碎片等问题.该模型的简化版本在数据预处理阶段完成.实验证明,R-C4.5决策树模型及其简化版本在提高测试属性选择度量的可解释性、减少空枝和无意义分枝及过度拟合等方面有显著的提高.还将改进的R-C4.5算法应用到临床医疗领域,预测病人住院期,发现其分析结果可被管理者更好理解和接受,从而帮助医疗组织更好地规划管理医疗资源,达到优化资源配置的目的。
其他文献
聚类分析是数据挖掘的常用方法之一.从聚类的角度看,其他数据挖掘方法不过是对聚类的一种特例采用不同的建模方法进行研究而已.聚类分析通常采用距离量度来描述相似性,但拓扑
提出了一个基于网络数据的异常检测方法,它是一种基于实例的分类方法的扩展.首先将数据空间区域划分成互不相交的网格单元,与平分属性维不同,提出一种新的数值属性维划分方法
兵力配置是炮兵指挥决策的重要研究内容.兵力配置辅助决策是现代战争的迫切需要.提出了"适度集中配置"的配置原则,建立了一种计算机辅助生成炮兵兵力配置方案的新方法.针对传
常用的相关聚类将具有较高的正的相关系数的时间序列聚在一起,依存聚类则将正的相关和负的相关等同看待.时间序列的依存聚类方法可以将彼此影响,或者受共同因素影响的时间序
提出一种基于粗糙集的模糊神经网络(RFNN)流量预测算法.传统的流量控制技术,总是以网络资源当前使用情况对包进行处理,没有考虑流量预测问题,易造成流量控制滞后的情况.将基
1临床资料rn51例患者中,全部是男性,年龄18~60岁,病程4日~3年,职业以司机、外出务工人员为主.发病前均有不洁性交史.发病初期有非淋球菌性尿道炎的典型表现.大部分患者未到医院
对Internet上越来越多的XML文档的模式进行聚类近年来已成为一个研究热点.相似度计算是聚类操作的基础.提出了一种基于模式匹配的多策略XML模式相似度计算方法:采用了一种基
1本例临床特点rn①患者女,46岁,采茶工人.起病急、病程短.②在6月份发病.③畏寒发热,全身酸痛,食欲减退、乏力、尿黄3天.④左腋前部见焦痂.⑤皮肤粘膜、巩膜黄染,肝肿大.⑤尿
湿地是水域和陆地系统交互接壤地带形成的一种特殊类型的生态系统,具有十分重要的生态服务功能.长江中下游地区分布着以湖泊和河流湿地为主的大面积湿地,同时也是人口密集区,
通过分析现有的入侵检测方法,提出了基于无监督学习的网络入侵检测系统.为了使学习方法适合网络入侵检测系统在线、实时的特点,提出了改进的竞争学习算法.该算法采用基于Hebb