论文部分内容阅读
随着信息技术的迅速发展,各类型数据库积累数据的日益增多,常用的数据库管理系统的查询机制和统计学分析方法已经远不能满足需要,数据挖掘技术应运而生。作为数据挖掘技术的核心算法之一,决策树是一种自顶向下、无回溯、不断搜索重要分裂变量的归纳学习算法,其基本目标是在特定的学习任务指导下从一组无次序、无规则的事例中构建简洁、直观的树型结构,核心技术是树的生长和剪枝。决策树不仅具备了数据挖掘技术充分发现隐藏在数据背后大量信息的基本特点,还具有许多其它传统的统计学方法和机器学习方法无法比拟的优点。 本文结合实际医学资料—慢性胃炎中医证型资料和肝癌病人术后临床随访资料对决策树进行了研究,充分挖掘决策树的算法优势,克服传统统计学分析方法的局限性,探讨了决策树在医学分类和预测问题中的应用,结果较成功地实现了中医证型的分类以及肝癌病人复发情况的预测,为复杂医学资料的分析提供了一种较好的思路。 在慢性胃炎中医证型资料的研究中,分析目的是5类证型的鉴别诊断,原始样本量为406例。为了满足数据挖掘对样本量的要求,本文在充分利用原有样本信息的基础上,采用Bootstrap抽样方法对数据进行了扩增,在SAS Enterprise Miner中构建以信息增益比(information gain ratio)减少为特征的决策树模型。结果筛选出对证型诊断有意义的33个变量并对变量重要性进行了量化,形成了129条可用于指导鉴别诊断的规则。所建辨证分类模型的诊断符合率较高,训练集为83.90%,验证集为79.84%,测试集为80.75%。利用模型进行预测分类时,模型在5类证型鉴别诊断上的灵敏度和特异度也较高,第1类为85.59%、94.86%,第2类为64.71%、93.37%,第3类为81.43%、96.28%,第4类为89.19%、97.65%,第5类为69.88%、92.82%。中医证型研究是中医理论研究的一个热点和难点,证型的鉴别诊断缺乏客观的标准,各因素对于证型鉴别诊断的意义无法用客观指标衡量。但是决策树在慢性胃炎中医证型资料中的应用却表现出很好的效果:筛选出对鉴别诊断有意义的变量并对其重要性进行排序;产生一系列易于理解、便于应用的指导规则;建立概率型模型,根据概率的大小可判断病例所属的中医证型。这些均为临床实际应用提供了重要的参考价值。 在肝癌病人预后研究中,将决策树C4.5和CART两种算法与Logistic回归进行了比较。研究中先采用SAS Enterprise Miner变量选择节点中的决定系数方法(界值为0.005)和计算卡方值方法(界值为3.84)对影响因素进行筛选,后以选出的肿瘤大小等11个变量和观察时间为自变量,肝癌是否复发为应变量,分别训练以信息增益比、基尼系数为分裂变量选择标准的C4.5、CART决策树模型以及以logit为联结函数的回归模型。结果,C4.5决策树模型测试集的正确分类率为80.76%,比CART决策树的硕士研究生毕业论文中、英文摘要77.犯%和Logisti。回归模型的70.45%高,Roc曲线下的面积也最大;另外,决策树模型从数据中提取了一系列可以用于临床判断肝癌病人术后复发情况的规则。肝癌病人术后复发的影响因素较多而且因素间相互作用比较复杂,尽管研究只采用了12个主要影响因素,但这些因素之间仍然存在着复杂的交互作用。较之Logisti。回归方法,决策树在肝癌资料的处理上表现出了较好的优势,展现了它在因素较多、交互作用复杂的资料上较强的处理能力。同为决策树模型,C4.5所建模型的正确分类率比CART高,对于本资料,可以采用C4.5决策树模型进行肝癌病人预测预后的分析。 经过两个医学资料的实践验证,决策树处理分类和预测问题的优越性得到了充分展示。表现在:一、能利用决策树算法原理对缺失值进行有效处理而勿需事先对其填充;二、能利用决策树算法原理和模糊集原理对连续性输入变量的取值进行合理分段;三、能同时处理具有多种不同度量类型的资料;四、训练速度快、分类效率高、可处理大量复杂的非线性数据;五、可以筛选出对于分类或预测有重要意义的变量并根据其重要性进行量化;六、产生的规则易于解释,于临床有很好的指导意义;七、建立的模型基于概率表示,可以根据概率的大小判断目标类别。随着决策树技术的进一步应用,相信其必能展现重要的实用价值和广阔的发展前景。