分支合并对决策树归纳学习的影响

来源 :河北大学 | 被引量 : 0次 | 上传用户:yeyuan1985
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
决策树归纳学习算法是目前商业数据挖掘工具中使用最为广泛的算法之一,因其形状像树且应用于决策而得名。它是一种逼近离散值目标函数的归纳推理方法,在这种方法中学习到的函数被表示为一棵决策树。这个决策树模型能够表示发现描述类别的模式,用于完成预测任务。决策树是止前用于预测和分类的主要技术,特别是商用领域,已经被成功地应用到从学习医疗诊断到学习评估贷款申请的信用风险的广阔领域。简而言之,决策树能够将数据转换成知识。传统的决策树构建方法,由于其选择扩展属性时的归纳偏置,导致属性值较多的属性总会被优先选择,从而导致树的规模过大,并且泛化能力下降,因此需对其进行简化。剪枝是简化的一种,主要分为预剪枝和后剪枝。本文针对预剪枝中的分支合并进行研究。分支合并就是在树的产生过程中,将当前扩展属性的两个(或多个)属性值所在分支合并成一个分支,然后继续树的生长。本文中提出了两种分支合并算法,基于正例比的分支合并算法(SSID)和基于SVM中MARGIN的分支合并算法(MID)。随后又基于信息增益讨论了分支合并的可行性,提出了基于最大信息补偿的分支合并算法(MCID)。实验结果表明,几种分支合并算法在树的规模、泛化能力等方面要优于利用See5构建的决策树。
其他文献
负载均衡作为云计算的关键技术之一[1],可以把云负载动态均衡地分配到云系统所有的节点中。有效地负载均衡算法在提高用户满意度、提高资源利用率和避免虚拟机频繁迁移起着重
随着互联网的迅速发展,网络安全问题越来越受到人们的重视。随着攻击者技术的日趋成熟,攻击工具与手法的日趋复杂多样,单纯的防火墙策略己经无法满足当前的需要,网络的防卫必
学位
UDDI作为web服务中的核心技术之一,正在受到越来越广泛的关注。目前的UDDI信息存储主要采用大集中存储模式,随着服务数量的不断增加,其维护、管理将变得很困难并且这些服务信
基于位置的服务(Location-Based Service)已经在诸多领域蓬勃展开,其目的在于可使任何人、任何地点、任何设备、任何时间实时获取各种基于位置的属性信息。各种类型的移动智能
图像分割是图像处理的核心问题之一,是计算机视觉的基础步骤,是后续图像分析的基础。 对图像分割算法的研究巳有几十年的历史,借助各种理论至今已提出了上千种各种类型的分割算
随着信息技术的飞速发展,21世纪的计算模式正发生着深刻的变革。从分布式移动计算进入到无所不在的普适计算是计算发展的必然趋势。普适计算指的是一种无所不在的计算。在一个
现实世界中包含大量的模糊因素和模糊信息,因此模糊推理研究在人工智能领域具有重要的价值和意义。模糊推理过程中,选择不同的模糊算子对模糊推理的效果有直接的影响。传统的
机器学习 (知识获取) 的目标是将大量数据中所隐含的知识发现出来,也就是将知识从人们难于理解、操作和使用的数据表达形式转化为便于人们理解、操作和使用的决策规则形式的表
笔式交互是一种“以人为中心”的自然交互方式,其具有便利性、自然性和可控制性的特点。F-Tablet手写板是一种基于力的手写输入设备,计算机把通过其捕获到的书写者书写时的力信