论文部分内容阅读
本论文重点研究缺失数据的归因技术,及在缺失数据环境下的健壮性决策树模型改进。
关于缺失数据的灵敏度分析显示,数据集中的缺失数据对所有分类器的预测准确率都有明显的冲击。不过缺失数据对朴素贝叶斯分类器(NaiveBayesianClassifier,NBC)的影响非常小。NBC的这种特性使得该分类器特别适用于构造缺失数据的归因模型。
对缺失数据进行处理是数据挖掘过程中一个重要的工作。归因技术是处理缺失数据的流行方法。论文提出了NBI归因模型。NBI归因模型确定需要进行归因的属性,然后将归因属性作为目标属性,建立NBC分类模型,将归因问题转换为分类问题。最后,利用己建立的NBC分类模型预测属性的缺失值,并用预测值替换缺失值,完成归因过程。
NBI归因模型策略有顺序无关策略、顺序相关策略及混合策略,建议采用顺序无关策略。选取归因属性需要考虑两个方面的因素:属性所含缺失数据的比例,及属性对数据挖掘任务的重要程度。NBI归因模型采用基于信息增益值的属性重要因子和基于决策树结构的属性重要因子确定归因属性的重要程度。论文还采用统一的属性变量选择策略进行NBI归因模型的性能改进。
NBI归因模型的实验结果显示NBI的性能优于流行的C4.5内置模型和均值/众数归因法,而且随着缺失数据比例的提高,NBI的归因效果更为明显。无论归因属性的个数有多少,仅仅需要对数据库一遍扫描便可建立NBI归因模型,这对于大型数据库而言,特别是有较多归因属性的情形下,NBI的高效具有十分重要的意义。相对于流行的归因方法,NBI在具有高缺失数据比例的数据集上优势最为明显。
C4.5决策树模型是最为流行和成功的分类模型,常作为分类问题研究与分析的参考基准。评分函数用于对决策树模型进行评估。预测收益可作为预测准确率指标的补充和完善。针对决策树模型的改进,论文还提出了决策树改进模型的评分函数,用于反映模型的改进程度。
针对C4.5决策树模型存在的缺陷,如:可解释性降低、空枝问题、无贡献分枝、过度拟合等,论文提出了健壮有效的R-C4.5决策树改进模型。该模型基于C4.5决策树模型,但在分枝过程中,合并信息熵值较高的部分分枝,即对分类贡献较小的分枝,通过合并,有效避免了碎片问题。同时,还提出了R-C4.5的简化版本。与C4.5相比,R-C4.5生成的树在保持分类预测准确率的前提下,具有更少的节点,减少了出现过度拟合的可能。通过对缺失数据的灵敏度分析,实验发现随着数据集中缺失数据比率的增加,相对于C4.5,R-C4.5对缺失数据不敏感,预测准确率的下降趋势较C4.5缓慢,是一个健壮的决策树模型。
现实世界的数据集中常常含有与数据挖掘任务无关的属性。属性变量选择是处理高维度问题的基本策略之一。论文提出了统一的属性变量选择策略,结合分类问题给出了基于决策树的属性变量选择策略实现。通过实验验证了所提出的属性变量选择策略的有效性和实用性。根据统一的属性变量选择策略对NBC进行改进,不仅提高了NBC的预测准确率,而且提高了NBI归因模型的性能。
论文最后将已经取得的研究结果应用于一个真实的关于老年人住院持续时间的Clinics数据集。利用统一的属性变量选择策略进行Clinics数据集的属性变量选择,对于提高分类器的预测准确率十分有效,其中基于信息增益的属性变量选择策略对于决策树模型具有明显的改进效果,而基于决策树结构的属性变量选择策略对于NBC的预测准确率改进作用明显。通过NBI归因模型对Clinics数据集中缺失数据进行归因处理,对于提高分类预测准确率有显著作用,尤其是中期和长期住院病人的预测准确率。分类预测准确率的提高是由于对缺失数据的归因处理而得到,这一方面说明了缺失数据的归因处理对提高分类器预测准确率的作用,另一方面也说明了NBI归因模型的有效性。