基于决策树的数据挖掘算法研究与应用

被引量 : 0次 | 上传用户:zmhao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是指从数据库中抽取隐含的、具有潜在使用价值信息的过程,是一种新型的数据分析技术,已经被广泛应用于金融、保险、政府、教育、运输以及国防等领域。数据分类是数据挖掘中一个重要的内容。分类存在很多方法,常见的分类模型有决策树、神经网络、遗传算法、粗糙集、统计模型等。其中决策树算法是以实例为基础的归纳学习算法,以其易于提取显示规则、计算量相对较小、可以显示重要决策属性和较高的分类准确率等优点而得到广泛的应用。据统计,目前决策树算法是利用最广泛的数据挖掘算法之一。然而在实际的应用过程中,现存的决策树算法也存在很多不足之处,如计算效率低下、多值偏向等。因此,进一步改进决策树,提高决策树的性能,使其更加适合数据挖掘技术的应用要求具有重要的理论和现实意义。本文针对上述数据库知识发现的不足,进行深入的研究,探索数据挖掘中决策树分类的优化算法,以便更好地提高分类的准确性,更好地应用于实际工作中。本文主要的研究工作如下:第一,从宏观上介绍了数据挖掘和分类技术的理论基础,并重点对几种常见决策树算法进行了分析和比较,例如ID3、C4.5、CART算法。第二,详细地分析了利用决策树方法对数据进行分类挖掘时常见的几个问题:属性值空缺、连续属性的处理、过度拟合数据等。这些问题都会导致决策树的分类精度下降,因此在构建决策树时必须选择合理的策略,提高决策树的分类精度。第三,本文对决策树算法进行了优化研究,对属性值空缺、属性选择多值化、属性选择标准等问题提出了具体的解决办法。本文还提出了加权简化熵的概念,并对ID3算法进行了改进,经过比较,改进算法在总体性能上优于目前广泛应用的ID3算法。第四,利用新的决策树算法在一个棉纺厂的设备管理系统中进行数据挖掘,为厂家的决策支持提供了科学、准确的根据。
其他文献
"互联网+"是推动经济和社会发展的新范式,为我国产业集群高端化发展带来了历史性的弯道超车机遇。产业集群互联网化升级就是借助互联网技术提高产业集群构成要素的性能、优化
目的:研究膜型基质金属蛋白酶1(membranetype1matrixmetalloproteinase,MT1MMP)基因mRNA在人胃癌组织中的表达及其与胃癌浸润转移和临床分期的关系。方法:应用RTPCR半定量的
安徽省利辛县农民赵某,2006年前后收养了多名弃儿,弃儿虽然衣食无忧了,但在学习教育、医疗康复上,仅凭赵某个人还是力有不逮。2010年,纳入安徽省政府民生工程项目实施的利辛
近些年来,新版的有关阐述古典诗词语言艺术的书出了可谓不少,然而,多读几本,似乎也没什么长进。一是大同小异,没有新的开拓,二是总党作者对古典诗词艺术语言的把握不深,理解不透。最
品牌核心价值就是定位好以核心价值为中心的品牌识别系统,以品牌识别系统统帅一切营销传播,使品牌向消费者传递信息的所有接触点都在加深消费者大脑中对品牌定位的记忆与认同
基于企业网络理论观点研究了企业网络密度、企业学习能力和技术创新之间的关系,并以广东省高新技术企业或民营科技型企业为样本进行问卷调查,对整体模型进行了实证研究。结果
中国朝鲜族(Korean.Chinese)是个古老的民族,原居朝鲜半岛,其宗教文化具有明显的地域特色。主要表现在:历史演变与现实存在的多元性、多样性;相互关系的兼容性、包容性;宗教
艺术来源于生活。李清照的词可以说是记录了其生活和她思想感情的变化过程。因此,本文从李清照的情感生活出发,对其词作《南歌子》进行鉴赏,分析了这首词的主题及艺术特征。
目前,我国大部分油田已进入石油开发的中晚期,采出油中含水量已达70-90%,日产含油污水量非常大。如果这些水不经处理直接排放到环境中,势必会造成土壤、地面水体的污染。油田
在《读巴尔扎克》一文中,阿多诺主要通过对巴尔扎克的现实主义创作的评价,将其"否定辩证"、"非同一性"的美学观念应用到了对文学的分析中来。本文主要通过异化的现实、虚假的