基于决策树ID3算法的改进研究

被引量 : 0次 | 上传用户:NET399
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是利用分析工具从大量的、有噪声的、模糊的、不完全的、随机的数据中,提取出隐含在其中、事先未知、但又潜在有用的知识和信息的过程,建立数据间关系模型,并用其做出预测。分类挖掘是数据挖掘中最重要的技术之一,是数据挖掘中的一个重要课题,而分类技术中的决策树方法又是重点研究的方向。它能够直接体现数据的特点,便于理解,具有较好的分类预测能力,并能方便提取决策规则。目前,很多学者已经提出了许多利用决策树对大规模数据集进行分类的算法,其中以Quinlan于1986年提出的ID3算法最为典型。该算法有两大主要缺点:1、算法往往偏向于选择取值较多的属性,而属性较多的属性却不总是最优的属性。2、ID3算法只能处理离散属性,对于连续型的属性,在分类前需要对其进行离散化。为了解决这些问题,本文使用增益比率的概念和将连续属性的取值分区成两个区间的方法,在ID3算法的基础上提出了改进算法,并用Java这种完全面向对象的高级语言实现ID3算法及改进算法,通过仿真实验进行比较,得出改进算法比ID3算法所得的决策树更为理想。另外采用XML存储待挖掘数据,鉴于XML“可以表达各种类型的数据,并且能够与不同的数据源进行交互,解决了数据的统一接口问题”的优点,尝试并应用在ID3算法的改进与实现中,为任意数据库转换成XML格式的数据挖掘提供了思路。
其他文献
基片集成波导(SIW)在平面电路基板上实现了矩形波导的立体结构,因此它具有高Q值、低损耗、低成本和易于平面集成等优势。本文围绕基片集成波导的理论和技术及其在微波毫米波电
目的:毛兰素是从中药鼓槌石斛中提取出来的一种低分子量的联苄类天然产物。目前研究表明毛兰素对结肠癌、膀胱癌、肝癌、胃癌、黑色素瘤等癌细胞具有明显的增殖抑制和促凋亡的
基于软件无线电思想设计的数字中频系统,通过对信号做中频数字化处理,然后在数字域内进行数字信号处理,使其得以实现,这种设计在很大程度上避免了由于模拟器件对信号的影响而
对早花烟草驳枝后,其成熟期间中部和上部叶中叶绿素(Ch1)含量和硝酸还原酶(NR)活性下降,下部叶则增高,成熟后期的上部叶中淀粉酶(AM)活性明显增强。经驳枝的烟草,中、上部叶烘烤后叶中
为缩短可靠性试验周期、降低试验成本,结合虚拟试验技术对系统进行可靠性强化试验研究.以机械系统磨损失效为研究对象,通过磨损试验理论分析确定了磨损强化试验机理,提出了虚
目的报告临时血管转流术(temporary intravascular shunts,TIVS)用于快速重建肢体血供的初步体会。方法 2009年8月-2011年3月,对6例8条肢体大血管因外伤(4例5条)或肿瘤切除(2
有关民国出版的研究,如今以出版史研究和出版业实体的研究较为成熟、系统。然而,从管理学和历史学结合的角度,考察南京国民政府对出版业管理的研究目前尚无专著。本文选择了
本论文在横光利一初期作品中选取和他与第一任妻子小岛君子的爱情婚姻生活有着密切的联系的四篇小说,即其登上文坛之作的中篇小说《日輪》(1923年5月《新小说》)和其后的“病