训练集容量对决策树分类错误率的影响研究

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:hhf1985
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘算法必须在实际数据集上进行验证,而数据集容量是有限的,训练集比例过低会导致训练不足,训练集比例过高会导致算法评价过于乐观。针对训练集容量对评价效果的影响问题,对25个UCI数据集的不同比例训练集运用决策树算法C4.5,得出不同训练集容量对决策树分类错误率的影响关系。实验结果表明,训练集比例至少为50%时才能使分类错误率达到相对平稳。
其他文献
代谢综合征(metabolic syndrome,MS)是心血管病的多种代谢危险因素,在同一个体内集结的状态,主要组成包括肥胖、糖代谢异常、血脂异常以及高血压等。MS具有普遍流行性和较高的患病
川鼻航道及附近水域是沙角处辖区乃至广州局辖区碰撞事故最多的水域,广州沙角海事处辖区2004年至2009年共发生列入统计范围的事故34宗,占广州海事局辖区事故总量的36%,其中列
存储过程作为一种高效访问数据库的机制,是现代数据库系统的重要特征。该文兼容Oraele L/SQL 2.3语言规范,在数据库管理系统GKD—Base L/SQL引擎上,采用语法树表示存储过程的中间代
在大学课堂上,部分同学学习的积极性不高,出现玩手机、看无关书籍、甚至睡觉等现象。这也从侧面说明了有些同学对专业的学习不感兴趣。兴趣是最好的教师,如果对学习没有兴趣,
优选论的核心是可违反的普遍原则。忠实性制约条件与标记性制约条件之间的冲突及其等级排列体现出普遍原则对自然语言的巨大作用。本文通过对英语、日语音节结构的分析以及对
针对计算机系统在行业应用中,具有故障发生的隐蔽性、突发性和灾难性特点,从外部供电、UPS架构、机房监控到如何完善管理,探讨重要机房的电源保障方案。
无线局域网脆弱的安全性限制了其发展。简要介绍了无线局域网的安全威胁,以及为了应对这些威胁而采取的系列安全协议。其中,有新一代的IEEE802.11i安全标准和我国独立研发的安全协议WAPI。
社会化媒体平台促进了粉丝群体的互动和粉丝经济的空前繁荣。社会化媒体中粉丝经济的传播存在动态交互的传播机制,新的传播机制中所涉及的社会化媒体传播机制的关系都值得深
在实际建筑设计中,在争取空间特色的同时,以最简单、最经济的方法得到冬暖夏凉的房屋。本设计小组对四川及全国十几所高校建筑作了实地调研,在继承现今经验基础上,我们分析发现了
在安全运营平台的建设中,通过行为特征而构建的主动发现预警机制,将会成为监测并能够发现网络中各种安全隐患、违规行为的一种独特的设计思路和实现方法。从基于安全隐患行为特征的检测、基于为业务数据行为特征的检测两个方面对基于行为特征而构建的安全运营监测系统进行了阐述。