基于敏感度的可抗噪的模糊SLIQ决策树

来源 :山东大学 | 被引量 : 0次 | 上传用户:xiaoxiaohaizi319
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
决策树作为数据挖掘领域最为广泛使用的技术之,由于其在知识获取以及知识表达方面的突出优势而备受青睐。伴随着海量数据的产生,数据中蕴含的不确定知识同时日益增长,因此人们对这些不确定知识给予了越来越多的关注。上世纪60年代中期,扎德建设性地提出了模糊集合理论,从此人们对模糊知识有了更为精确的表达。同时,众多的学者把模糊集合理论引入了决策树领域,以克服传统决策树存在的尖锐边界问题。ID3算法较早地被模糊化,而最近,SLIQ算法也被引入了模糊环境。本文针对Chandra等人提出的模糊SLIQ算法—G-FDT算法进行讨论,对由该算法归纳出的模糊决策树退化为传统的清晰决策树这一现象,剖析出其中的原因。并根据传统的分裂测试评估函数在模糊环境下表现出的凸性弊端,本文提出了一种新的模糊SLIQ算法——可抗噪的基于属性敏感度的模糊决策树归纳算法,相比于G-FDT,该算法的主要改进有:(1)针对G-FDT算法构造出的候选属性对应得区分函数的形状过于狭窄的问题,本文提出的确定区分函数形状的方法从根本上避免了区分函数近似于清晰区分函数。(2)提出了候选属性敏感度的概念。根据传统节点分裂测试的启发式评估函数在模糊环境下存在的凸性弊端,本文提出了显示候选属性的分类能力的分类敏感度的概念,对于分类敏感度高的候选属性使其对应的区分函数形状性对狭窄,从而使得这种属性倾向于被选择。(3)提出了对训练数据进行异常探测机制。由于G-FDT或早期提出的SG-FDT算法抗干扰能力极差,由其构造出的决策树结构对具体的训练样本较为敏感,削弱了决策树对知识的良好的表达能力。为此,改进后的算法中,当节点进行分裂测试时,对当前的数据进行排噪处理。从而获得决策树相对更加稳定、健壮。(4)提出了使得计算效率提高的优化措施。为了使改进后的归纳算法更加具有实用性,本文提出了多种优化措施来减少由较为复杂的操作而带来的巨大开销,这些措施包括增加节点分裂终止标准、对候选属性进行测试前进行检测以便确定该属性是否被当前节点的祖先节点使用过。本文对可抗噪的基于敏感度的模糊决策树归纳算法进行了相应的实验模拟和结果分析,实验结果表明,该算法真正实现了模糊SLIQ算法,表现出了良好的健壮性,并且有该算法构造出的模糊决策树的分类能力、计算效率方面有了较大的提高。
其他文献
本文以集成供应链中采购管理软件的开发为应用背景,探讨了基于工作流的软件模型、本体描述方法、协同方法等系统设计问题,建立了一个高效的采购管理软件框架,并利用Petri网等
公交车作为居民出行的主要公共交通工具,由于实时客流量信息的不足,导致经常出现严重的空乘和拥堵现象。因此,迫切需要一种科学合理的公交站台客流量采集手段,为公交车的实时规划
随着社会信息化程度的提高,人们对于信息实时性的要求也日益提高。如何从海量的信息中查找到所需的最新信息越来越引起人们的关注。而XML作为网络数据表示和交换的标准,很多
跨语言信息检索(CLIR)是用户采用一种语言的查询检索另一种语言的文档集合的过程。查询翻译是CLIR系统中采用最广泛的方法。查询翻译普遍采用基于词典的方法,而查询中的未登录词
在数据采集和处理中,存在着大量的概率数据,这些数据具有复杂的相关性以及在查询和处理方面具有实时性。而目前的传统关系数据模型都是用来处理确定数据的,这就需要研究支持
聚类分析是数据挖掘中一个重要的研究分支,已在多个领域得到了很好的应用,诸如模式识别,数据分析和图像处理等。随着实际应用中数据的大量产生,数据的属性类型不再是单一类型为主
潜在语义分析(LatentSemanticAnalysis,LSA)是一种通过统计分析挖掘出文档和词语之间潜在含义的经典算法,最初用于解决信息检索中的多义词问题。潜在语义分析使用传统的向量空
传统的节点由电池供电的无线传感器网络,存在着因节点电池耗竭而无法正常工作这一弊端。能量捕获传感器网络(Energy-Harvesting Wireless Sensor Network,EH-WSN)克服了这一弊端
迁移工作流是近年来工作流管理的一个新的技术,它将工作流管理和移动计算结合起来,特别适用于需要传递大量数据和需要大量远程过程调用的处理过程。迁移工作流管理系统包括迁
过去的三十多年来,无论是在商用领域还是个人家用领域,基于Intelx86[7]架构的服务器和个人主机都具有很高的市场份额[8]。不过近些年来,随着消费者对智能手机和平板电脑等移