决策树在数据预处理中的应用研究

来源 :南开大学 | 被引量 : 0次 | 上传用户：rgr

【摘要】

：

数据挖掘是数据库、人工智能、机器学习等领域相结合而产生的一个新兴的、具有广泛应用前景的研究领域.数据挖掘就是从大量的历史数据中发现隐含的、有潜在应用价值并最终能

【作者】

：

文硕频

【机构】

：

南开大学

【出处】

：

南开大学

【发表日期】

：

2004年期

【关键词】

：

数据挖掘数据预处理决策树决策表数据填充离散化

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据挖掘是数据库、人工智能、机器学习等领域相结合而产生的一个新兴的、具有广泛应用前景的研究领域.数据挖掘就是从大量的历史数据中发现隐含的、有潜在应用价值并最终能被人理解的知识的过程.在决策领域,人们所面对的数据往往具有不确定性和不完整性,从这类数据中发现知识是一个非常困难的问题.数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能.由于高质量的决策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要的步骤.目前,数据挖掘的大量研究工作集中在挖掘算法上,而对预处理环节重视不够.该文从数据挖掘的基本概念入手,结合粗糙集的基本理论,利用决策树的理论和方法,从多方面研究了数据挖掘过程中数据预处理的问题:1)不完全决策表的数据填充和规则提取.不完全信息系统中遗失数据的补充和规则的提取,一直是数据挖掘技术面临的重要问题.该文给出了一种基于决策树来求解此问题的算法.对于给定的不完全决策表,该算法应用改进的ID3算法来构造决策树,在构造决策树的过程中对遗失值进行补充.对于不能在决策树上补充的遗失值,定义了一种相关对象之间的相似度来填充.从构造的决策树上提取规则.该算法简单,易于操作,我们通过实例详细说明了该算法.2)具有连续属性的决策表的属性离散化.由于粗糙集理论研究的对象只能是离散值对象,对于值域是连续的数据库常常需要进行离散化处理.该文结合粗糙集理论,给出了一个基于决策树的连续属性的离散化方法.此算法可以有效的从候选割集中找到较优的子割集,实现连续属性的离散化.从决策树上可以看到离散化的过程,易于对不满意割的修改.文中我们通过详细的例子说明了该算法.

其他文献

书香秋韵下的全学科阅读——小学语文全学科阅读的实践研究

一、研究背景rn目前的阅读理论和实践都是基于语文学科的教学,局限语文学科的教学领域,但是在学生的阅读实践活动中,学生的阅读是跨越语文学科的.我们呼唤着课内与课外的结合

期刊

语文学科阅读模式小学语文培养学生课内与课外阅读理论实践结构综合教学领域践活动知识整合意识立体观念

Some Factorizations of Complete Bipartite Graphs

该文主要研究λK的因子分解问题.首先,我们给出了λK存在K因子分解的一个必要条件,其中k是任意正整数.其次,当λ=1,p,…,p的时候,我们给出了λK存在K因子分解的一个充分条件,

学位

完全二部多重图K因子分解K因子分解受限制的K因子分解

提高初中英语课堂效率的方法

提高课堂效率关键在方法,在于老师的教学方法,也在于学生的学习方法,必须全方位研究和分析.新课改下,教师的教学已有重结果转向重过程.教师对学生笔记策略指导过程中,要鼓励

期刊

初中英语课堂效率方式方法笔记写作

与薛丁谔型谱问题相联系的孤子族的分解

该文通过Lax对非线性化方法将一个含有四个位势薛丁谔型谱问题相联系的孤子方程族分解为一类新的有限维Hamiltonian系统,利用守恒积分的母函数,证明了此有限维Hamiltonian系

学位

孤子族的分解对合性可积性有限维Hamiltonian系统

做好世博后推动科学发展服务职工群众这篇大文章

中国2010年上海世博会实现了“成功、精彩、难忘”的办博目标,达到世博会历史的巅峰,国资委系统广大党员、干部和职工为此做出了巨大努力和贡献,这些努力和贡献将转化为精神

期刊

精神财富继续前进国企改革发展国企发展国资国企改革国有经济布局员工发展国企党建基层党组织创先

新时期小学语文教学的创新研究浅析

新课改的实施要求我们,对于小学生的教学培养不能忽视对其创新精神的开发与培育,特别是小学语文教学中对创新精神的激发.因此,本文结合实际相关分析了新课改下小学语文教学创

期刊

小学语文创新积极性主动性

独立分量分析的非参数方法

整个文章安排如下:第一章介绍了独立分量分析的基本背景和应用领域,给出几个ICA的基本模型以及假设条件.第二章给出必要的预备知识.主要包括梯度概念,因为独立分量分析问题,

学位

独立分量分析多元分析信息理论非参数密度估计

渐近线性Dirichlet问题正解及多重解的存在性

运用变分法讨论渐近线性Dirichlet问题正解及多重解的存在性.该文一方面对已有文献的结论加以推广,另一方面,运用临界点理论中的几个多解定理得到一些新的多重解的存在性结果

学位

变分法渐近线性Dirichlet问题多重解存在性

初中化学如何培养学生的环保责任感

柴静的《穹顶之下》我想大家一定看到过或听说过,看后让人颇为感慨.环保已成为全球21世纪最热门、最重要的话题.G20峰会上习主席也说:金山银山我们更要绿水青山.可见,环保是

期刊

课外活动课堂环保责任感初中化学

几个多复变数全纯函数空间及其复合算子

该文所考虑的对象是多复变数中的一些全纯函数空间和加权复合算子.主要内容如下:1、定义了单位球Bn上的几个加权函数空间HLpρ,Zpρ,Bpρ和Jpρ.研究这些函数空间中函数的增

学位

多复变数全纯函数空间加权复合算子

决策树在数据预处理中的应用研究

与本文相关的学术论文