ID3算法的研究及优化

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:bbc118
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息和科学技术的飞速发展,海量数据的产生,传统的手工处理和分析数据的统计方法已不能满足现实的需求。特别是在大数据时代的今天,数据的数量巨大、结构复杂,传统的处理方法已不能高效的作用于这些数据。在数据时代的今天,拥有数据并合理有效地处理数据,对于一个企业、政府,甚至是整个国家来说都是至关重要的,所以对处理海量数据的研究越来越受到重视。经过几十年的研究,数据挖掘理论已发展成为最重要的数据处理和分析理论,而且已经有了十分广泛的应用。在数据挖掘中决策树分类算法是最为基本且应用最多的分析方法,本文就是在经典ID3算法的基础上进行探讨研究的。主要对训练集和测试集的选取方法、ID3算法中的属性分裂标准这两个方面进行了改进,并用实例进行验证,全文的主要内容如下:1、介绍了数据预处理和预分析的方法和步骤,分类算法的定义和方法,进一步具体阐述了 ID3算法的理论和实现步骤。2、介绍了选取训练集和测试集常用的方法及各种方法的优缺点,并提出了权重分类划分法:首先将所有的样本进行分类,根据属性的主要性和类别比例的大小确定权重,然后根据权重的大小来确定在本类别中所选取样本数,将所有类别中选取的样本组合成训练集,剩余的组合成测试集。3、在经典ID3算法的基础上引入分裂属性的权重,首先将训练集按照类别分组,求每个类别中属性的中心值,然后求这些中心值的标准差,根据各属性的标准差来确定属性的权重。4、分别用ID3算法和改进的ID3算法进行建模,并比较结果发现,改进的ID3算法分类精确度有了明显的提高。本文最后指出了研究的不足之处和需要进一步改进的地方。
其他文献
潕阳河,又名无阳河、武溪、舞水,它发源于苗岭腹地瓮安,最终经过黔阳黔城镇注入沅水,它不仅是沅水的主要支流,也是中原腹地与西南边陲社会经济交流的通道。明清时期,随着潕阳
旅游投诉是评价一个地区旅游服务质量高低的主要因素之一,是提高旅游服务质量的重要出发点,旅游投诉处理是旅游政府主管部门对旅游服务质量进行把控的重要环节。通过对旅游投
<正>一、行动意义习近平总书记指出,互联网日益成为创新驱动发展的先导力量,深刻改变着人们的生产生活,有力推动着社会发展。国务院近日印发《关于积极推进"互联网+"行动的指
[目的 ] 研究采用Lab色度系统 (△E)评价不同类型防晒化妆品的防晒效果的可行性。  [方法 ] 选择 35名年轻女性 ,随机分为 4组 ,在颊部使用含不同防晒剂的化妆品 ,以仪器
改革开放以来 ,永州与全国其他地方一样 ,民营经济从无到有、由小变大 ,已经成为永州国民经济的重要组成部分和发展最具活力、最具潜力的经济增长点。正确认识永州民营经济发
中专教师在解答学生课外提问时,不仅应掌握一定的技巧和方法,还应把握分寸、张弛有度,循序渐进地提高学生的综合素质。
<正> 当妇女正行经的时候或者在行经的前后发生少腹部疼痛,有的牵引腰胁甚至有的形成不能忍受的状态,即古人所谓“疼如刀割”。它随着月经周期而持续性的发作;这即是通常我们
在高校教师队伍中,青年教师是一支活跃的生力军,是学校教学、科研、行政管理的重要力量,他们有着青年人独特的需求。正确认识青年教师的需求,把握这一重要群体在新形势下的思想动
炎帝文化蕴涵着丰富的旅游资源,其历史遗存、历史祭祀、历史建筑、文化艺术等,有很大的开发利用价值。炎帝文化旅游资源的开发和利用,要在现有基础上科学规划,提供政策扶持,
探索了取代2-氢噻吩-3-羰基酸酯的合成及其硅烷化的方法,并对反应条件进行了优化;以其为母体合成了20个未见有报道的噻吩甲酰胺衍生物;各噻吩甲酰胺衍生物的结构经1H NMR,13C