基于误判成本的决策树C5.0算法的优化分析

来源 :山西大学 | 被引量 : 12次 | 上传用户:flame_earth
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据挖掘的分类应用中,决策树算法是最为广泛的一种分类算法,具有算法简单高效、分类精准度高的特点,但是在建立分类模型的过程中将所有的误判分类平等对待,导致不同成本值的错误分类没有在建模过程中区别对待,使得模型错误分类的总成本值较高。针对以上问题,本文引入了成本矩阵的概念,通过分析不同类型的误判成本值,组成相应的成本矩阵,并且在医院患者分类的数据挖掘过程中实现了C5.0算法的优化,从而建立误判成本较小的患者预测分类模型,通过实验也验证了成本矩阵可以有效的降低预测分类模型的误判成本。本文首先对决策树分类算法进行了分析,深入研究了基于成本矩阵的决策树C5.0算法优化及其在医院患者分类中的应用,并且根据医院患者分类的实际应用情况,对数据挖掘模型的成本矩阵、剪枝程度和Boosting算法进行了分析研究。在成本矩阵的优化分析中引入了高成本错误误判成本值COST(高)、一般成本错误误判成本值COST(中)、低成本错误误判成本值COST(低),并且分析了误判成本取值的判定条件,最终对比分析得到COST(高)=3、COST(中)=2、COST(低)=1。在剪枝程度优化分析中分析了剪枝程度选取的两个参考值:决策树模型的复杂程度和分类准确率,通过实验对比分析两个参考值得到剪枝程度的最优值。在Boosting算法的优化分析中针对算法的迭代次数和过度拟合问题进行分析,通过测试样本的对比发现了过度拟合的问题,所以在本次建模中不能使用Boosting迭代算法。在此基础之上,对医院的住院客户进行数据取样、预处理和建模数据抽取,使用决策树C5.0算法建立了住院患者预测分类模型,并且用测试数据对模型进行测试分析。与此同时,将该模型应用于医院客户关系管理系统中的住院患者分类模块中,实现了医院CRM系统中的资料管理模块,能够对新入院的住院患者进行价值分类。本论文的创新点在于研究分析了全新的决策树C5.0算法,在预测分类中将误判成本考虑在内,给出了误判成本值的取值条件,建立了成本矩阵指导建模,并且实现了在模型整体错误率变化不大的情况下做到预测分类错误成本最小。在Boosting算法分析中发现了Boosting迭代算法会导致建模数据过度拟合的问题。本次建立的患者预测分类模型虽然具有风险度低、稳定性好等优点,但是模型在建模数据和测试数据中的分类错误率较高,分别是8.29%和8.17%,所以分类的精确度还可以进一步提高。
其他文献
近年来,虚拟化技术受到越来越多的关注。虚拟化技术作为最热门的IT技术之一,因其在降低软硬件资源消耗和提高计算资源的利用率方面的优势而受到青睐。在众多虚拟化技术中,Xen
本文在分析了现有公共卫生与医疗信息系统实现的问题与缺陷后,以公共卫生与医疗信息化的特点为基础,着重研究了以下两点内容:提出了利用Struts和Hibernate技术构建系统应用的
工作流是一个业务流程,用于表达活动及活动之间变化过程。工作流管理与工作流的控制和协调有关,它的主要特点是使处理过程自动化。它根据一系列定义的规则、把文档、信息或任
近年随着多媒体数据成指数级的增长,对于多媒体的分析和分类就变得越来越迫切。当人们在浏览和理解视/音频内容时,作为多媒体数据中标志性部分的音频,为人们的感知提供了重要
信息技术的发展对全世界来说都产生了极大的影响,是当前高技术发展中的主流技术,因为信息在人类生活中无处不在,无时无刻的不影响着人类的生活,对信息的获得和挖掘成为科学界关注
无线传感器网络作为一种新型的具有广泛应用前景的无线自组网络,其有效路由协议是目前研究的热点。随着研究和应用不断深入,对传感器网络提出更高的要求:为不同的业务提供有
虚拟现实技术是由计算机生成的人机交互的三维空间环境构成,它不仅能构建高度逼真的复杂虚拟环境,而且用户还可以和虚拟环境进行互动,增强系统的交互性和沉浸感。随着虚拟现实技
聚类在模式识别、系统建模、图像处理及数据挖掘等工程领域扮演着重要的角色。其基本算法广泛应用于生命科学、医学、社会科学、地理科学、工程科学等领域。聚类就是将数据对
专利文本由于包含有产品的组成结构、设计目标、组件功能原理等相关内容,一直是创新方法和产品革新最首要的信息源泉。专利是相关领域下的具有革新理念的解决方案,专利包含有
无线传感器网络是由大量低成本、低功耗、具备感知、数据处理、存储和无线通信能力的微型传感器节点通过自组织方式形成的网络。无线传感器网络技术将是21世纪最有发展前景的