缺失数据处理技术与健壮性决策树改进模型研究

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:gengyunshe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本论文重点研究缺失数据的归因技术,及在缺失数据环境下的健壮性决策树模型改进。 关于缺失数据的灵敏度分析显示,数据集中的缺失数据对所有分类器的预测准确率都有明显的冲击。不过缺失数据对朴素贝叶斯分类器(NaiveBayesianClassifier,NBC)的影响非常小。NBC的这种特性使得该分类器特别适用于构造缺失数据的归因模型。 对缺失数据进行处理是数据挖掘过程中一个重要的工作。归因技术是处理缺失数据的流行方法。论文提出了NBI归因模型。NBI归因模型确定需要进行归因的属性,然后将归因属性作为目标属性,建立NBC分类模型,将归因问题转换为分类问题。最后,利用己建立的NBC分类模型预测属性的缺失值,并用预测值替换缺失值,完成归因过程。 NBI归因模型策略有顺序无关策略、顺序相关策略及混合策略,建议采用顺序无关策略。选取归因属性需要考虑两个方面的因素:属性所含缺失数据的比例,及属性对数据挖掘任务的重要程度。NBI归因模型采用基于信息增益值的属性重要因子和基于决策树结构的属性重要因子确定归因属性的重要程度。论文还采用统一的属性变量选择策略进行NBI归因模型的性能改进。 NBI归因模型的实验结果显示NBI的性能优于流行的C4.5内置模型和均值/众数归因法,而且随着缺失数据比例的提高,NBI的归因效果更为明显。无论归因属性的个数有多少,仅仅需要对数据库一遍扫描便可建立NBI归因模型,这对于大型数据库而言,特别是有较多归因属性的情形下,NBI的高效具有十分重要的意义。相对于流行的归因方法,NBI在具有高缺失数据比例的数据集上优势最为明显。 C4.5决策树模型是最为流行和成功的分类模型,常作为分类问题研究与分析的参考基准。评分函数用于对决策树模型进行评估。预测收益可作为预测准确率指标的补充和完善。针对决策树模型的改进,论文还提出了决策树改进模型的评分函数,用于反映模型的改进程度。 针对C4.5决策树模型存在的缺陷,如:可解释性降低、空枝问题、无贡献分枝、过度拟合等,论文提出了健壮有效的R-C4.5决策树改进模型。该模型基于C4.5决策树模型,但在分枝过程中,合并信息熵值较高的部分分枝,即对分类贡献较小的分枝,通过合并,有效避免了碎片问题。同时,还提出了R-C4.5的简化版本。与C4.5相比,R-C4.5生成的树在保持分类预测准确率的前提下,具有更少的节点,减少了出现过度拟合的可能。通过对缺失数据的灵敏度分析,实验发现随着数据集中缺失数据比率的增加,相对于C4.5,R-C4.5对缺失数据不敏感,预测准确率的下降趋势较C4.5缓慢,是一个健壮的决策树模型。 现实世界的数据集中常常含有与数据挖掘任务无关的属性。属性变量选择是处理高维度问题的基本策略之一。论文提出了统一的属性变量选择策略,结合分类问题给出了基于决策树的属性变量选择策略实现。通过实验验证了所提出的属性变量选择策略的有效性和实用性。根据统一的属性变量选择策略对NBC进行改进,不仅提高了NBC的预测准确率,而且提高了NBI归因模型的性能。 论文最后将已经取得的研究结果应用于一个真实的关于老年人住院持续时间的Clinics数据集。利用统一的属性变量选择策略进行Clinics数据集的属性变量选择,对于提高分类器的预测准确率十分有效,其中基于信息增益的属性变量选择策略对于决策树模型具有明显的改进效果,而基于决策树结构的属性变量选择策略对于NBC的预测准确率改进作用明显。通过NBI归因模型对Clinics数据集中缺失数据进行归因处理,对于提高分类预测准确率有显著作用,尤其是中期和长期住院病人的预测准确率。分类预测准确率的提高是由于对缺失数据的归因处理而得到,这一方面说明了缺失数据的归因处理对提高分类器预测准确率的作用,另一方面也说明了NBI归因模型的有效性。
其他文献
摘要:关于小学数学教学理念的提倡,其中一条尤为重要,这就是探究学习品质的培养问题。探究式学习是学生创新意识与能力培养的直接途径,它可以增强学生进行自主学习的自信心和独立性。小学数学教师要通过多种途径和策略,促进学生进行自主式探究学习,帮助学生树立合作探究与独立探究学习的自觉性,使学生逐渐形成勇于探究的良好品质,从而促进学生在数学上得到应有的发展。  关键词:学习情境;有效素材;有效活动;探究学习 
信息技术逐渐应用在教育领域中,加快了教育手段的现代化发展进程,同时也能够提高教育的实际效果.在初中数学教学中,广泛采用信息技术手段进行教育理念的转变,为学生创造了良
在小山村里生活着四兄弟,他们的父母在很久以前的一场大火中离开了人世,现在他们四兄弟相依为命,大的那个男孩担负照顾三个小弟的责任.rn一日,哥哥从城里回来,给三个弟弟带了
期刊
随着新课程改革步伐的加快,小组合作学习已经成为各个学科普遍采用的一种教学方式.在初中数学教学中,小组合作学习的教学方式尤为重要,文章分析小学合作学习的基本要素及原则
2210年,由于陆地资源太过缺乏,动物们便搬到了海底,在那儿定居.rn在海底住了一段时间后,小兔子欢欢发现海底的资源远比陆地上丰富得多!大型游乐场、高空大厦、智能机器人公司
小学数学的学习,是学生在整个数学学习生涯中的一个初始阶段,也是一个重要的阶段.在小学数学的教学中,对学生思维方式和能力的培养至关重要,新的时代背景下,“渗透数学思想”
信息技术的发展使得课堂教学模式呈现出智能化趋势,当前越来越多小学数学老师开始利用多媒体技术开展课堂教学活动,其不仅有助于为学生营造出有趣的教学氛围,而且有助于提高
摘要:在国家教育教学改革不断深入开展的过程中,学生作为课堂教学主体,老师作为引导者的概念逐渐明确,在课堂教学的过程中,需要老师利用先进的教学设备和新颖的教学方法来改变课堂教学,使课堂气氛更为活跃轻松,不断提高学生的学习积极性,才能有效促进学生学科思维意识的产生。针对于小学的数学课堂教学而言,老师需要在教学的过程中更多的引导学生进行主动思考,让学生在自我思考的过程中不断培养数学学习意识,为其在日后初
建立社会主义市场经济体制,加快改革开放和经济建设发展步伐,要进一步加强和改善党的领导。这是摆在全党特别是各级领导面前的庄严使命,也是亟需认真探讨和实践的新课题。我