面向连续型属性的决策树分类算法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:zhaojiagu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类问题是模式识别、机器学习、图像处理以及信息检索等数据挖掘领域中一类重要的研究课题。在大量的分类模型中,决策树(Decision Trees,DTs)模型是最受欢迎且应用最为广泛的经典算法之一,其具有易理解、参数少及分类精度高等优点,并已在商业、医疗、工业制造、金融分析、生物信息以及图像处理方面获得广泛的应用并取得了显著的成效。针对连续型数据集,传统的处理方式要么采用标准的分割标准或其衍生方法,要么先对数据进行离散化后再采用标准的分割函数来训练决策树,这样构建的决策树不是分类效果不佳,就是构建的决策树规模较大。对上述问题,本文对决策树算法进行了深入地分析,开展了以下几个方面的研究:1.传统决策树算法在多类分类问题中存在分类性能较弱且构建的决策树规模较复杂等问题,本文提出一种将决策树与一对多(one-vs-all,OVA)分解策略相结合的混合机制。该混合机制以决策树作为基分类器并通过OVA策略将多类分类问题分解为多个二分类问题,针对训练集被OVA策略分解后产生的类非均衡问题以及分割点竞争问题提出一种分割点纠正矩阵(Splitting Point Correction Matrix,SPCM)的分割标准。在每个内部结点上,该分割标准能够从多个视角评估所有分割点并从中选择最优的分割点。首先,计算内部结点中的每一个分割点的海林格距离、基于分割点的分段值和分割率;然后,把该结点内所有分割点的海林格距离、分段值和分割率组成矩阵并依据海林格距离按降序排列,将前K个分割点作为候选分割点并对矩阵截短;最后,在截短的矩阵中,将分段值最小且分割率最大的候选分割点作为该内部节点的最优分割点。实验结果表明,与其它经典的决策树算法及最新的OVA混合机制相比,本文提出的方法在分类性能上有较大地提升,同时构建的决策树规模更小。2.针对传统的决策树算法在选择内部结点的最优分割点的过程中,当面临具有多个与最优分割点相近或相等的评估值时无法确定哪个分割点才是最优分割点情况,本文将内部结点中训练样本的频率信息和排列信息相结合提出一种称为SPES(Splitting Performance and the number of Expected Segments)的混合模型。该混合模型在每一个内部节点上选择最优分割点的机制为:首先,使用C4.5算法计算每一个分割点的信息增益率并将前K个最大值对应的分割点作为候选分割点;其次,计算K个候选分割点的期望分段值;最后,使用权衡因子将两者结合在一起并把评估值最大的分割点作为最优分割点。实验结果表明,与其它经典的决策树算法及最新的分割点竞争算法相比,本文提出的混合模型在分类性能方面有明显的改善。3.决策树算法中分割标准的设计通常与数据集中的类分布有关,但在类均衡的数据集上构建决策树时,往往会忽略过程中子结点的局部类非均衡问题。针对这一问题,详细分析其特征,本文提出了一种基于多分割标准的自适应决策树算法(Adaptive Decision Tree Algorithm,AdaDT)。在内部结点中,AdaDT算法将其局部类非均衡率作为两个分割标准之间的权衡因子,因此其能够自适应地选择合适的分割标准及最优分割点。实验结果表明,与其它分割函数相比,本文提出的自适应算法不仅能够有效地提高决策树的分类性能;而且还能够提高不同类别的样本的分类准确率。上述三种不同的分割标准的提出各有其特点,但它们之间有着内在的联系。基于SPCM的决策树算法不仅能够处理类非均衡问题而且能够有效解决分割点竞争问题;SPES算法提出了一般化的分割点竞争问题解决方案;最后,AdaDT算法针对传统决策树算法(包括上述两种算法)在构建决策树过程中存在的局部类非均衡问题提出了普适性的方法。本文的工作进一步地拓展了对决策树算法的研究,为其在应用领域提供了重要的支撑。本文的创新点如下:1.针对多类分类问题,将决策树与一对多机制相结合并提出了一种基于分割点纠正矩阵(SPCM)的决策树算法。与传统方法集中在测试样本输出的聚合策略不同,本文主要集中在构建泛化性能更好的基分类器。通过对比实验表明:基于本文提出的方法构建的一对多系统与当前最好的一对多系统相比,在多个数据集上的分类准确率至少高出10个百分点;而且构建的决策树规模更小。2.针对分割点竞争问题,基于结点中训练数据的频率信息与排列信息提出一种混合模型的决策树算法(SPES)并在混合模型的基础上设计了两种不同的分割标准。对比实验结果表明:从整体上看,与当前最优的处理分割点竞争的方法相比,本文提出的两种分割标准构建的决策树在分类精度上有明显的提高,最大超过5个百分点。3.针对决策树构建过程中存在的局部类非均衡问题,提出一种基于多分割标准的自适应决策树算法(AdaDT)。该算法基于多个不同分割标准并将内部结点中的局部类非均衡率作为调节因子来权衡多个不同分割标准,然后根据结点中的数据特征自适应的选择合适的分割标准及最优分割点。对比实验结果表明:与当前最好的方法相比,基于自适应的决策树算法构建的决策树不仅在分类性能上有明显提升而且能显著改善不同类别的样本的分类正确率。具体地,AdaDT算法与其基分割标准相比,在整体上看分别提升4和5个百分点;与其它基于多分割标准算法相比,提升了 2~3个百分点。
其他文献
传统的均相催化剂反应活性高,但极易造成严重的环境污染。开发新型高效、绿色环保的固体催化材料已经成为全世界科研工作者关注的研究热点。金属有机框架材料(MOFs)和共价有机框架材料(COFs)是两类新兴的多孔有机材料,因其具有比表面积高、孔道规整可调、易修饰、热稳定性高和化学稳定性好等优点,在气体储存与分离、催化、储能、传感以及药物的缓释与传递等方面具有广阔的应用前景。鉴于此,本论文通过对这类多孔有机
学位
超冷原子气体具有体系纯净、相互作用可控、自由度丰富等特点,它是研究物质量子特性的理想体系。自1995年在碱金属气体中实现玻色-爱因斯坦凝聚体(BEC)以来,其各方面物理的特性和应用前景得到了广泛研究,特别是对涡旋态玻色-爱因斯坦凝聚体的研究贯穿始终。产生涡旋态物质波的技术不断创新,例如利用磁场转动、激光束“搅动”、磁场拓扑相位刻印、涡旋光拉曼转移轨道角动量、光场相位刻印等方法。涡旋态凝聚体对于研究
学位
近年来,随着冷原子和超稳激光技术的发展,光钟在不确定度和稳定度方面有了显著提升,达到了 10-18数量级甚至更好的水平,远远超过了当前用于秒定的Cs喷泉微波钟。因此,高精度光钟成为了下一代秒定义的最佳候选体系之一。此外高精度光钟还可用于高程差测量、物理常数精密测量以及暗物质探测等领域。与其他光钟体系相比,单个40Ca+离子光钟最大优点是其实现方案相对简单,所需的激光器都可以用半导体激光器实现;此外
学位
在当今世界正经历百年未有之大变局、中国经济进入新常态的大背景之下,诸多企业将人力资源的优化视为企业转型升级的突破口,把人力资源管理的变革作为提升企业内生动力和重塑创新优势的重要驱动力,与此同时,新一轮科技革命和产业革命迅猛发展,企业所处外部环境的动态性和不确定性也在不断加强,企业如何提升组织柔性来获取动态适应和快速反应能力引起了实业界和学术界的共同关注。人力资源作为企业生产力要素中的首要构成,同时
学位
吓尿了是一种有趣的、普遍存在于人和动物的、被人们所熟知的生物现象,人们曾一度在网络上用“吓尿了”夸张地表示自己的恐惧情绪。然而,这一现象背后的神经环路机制并不清楚。与人类不同的是,对于大多数其他哺乳动物而言,它们的尿液也会传递重要的信息,例如标记领地和吸引异性等。而有趣的是,在危机四伏的环境中排出体外的尿液所散发的气味更容易暴露自己的行踪,从而被捕食者发现,因此这并不利于生存。那么这种行为是否受大
学位
离子阱体系,具有囚禁时间长、相干时间长等优点,已经发展为能实现量子计算和研究量子力学基本问题的重要物理体系之一。本文主要介绍了我们新搭建的实验装置和相关的实验工作。在新搭建的实验装置方面,主要是改进了离子阱的结构,发明了新的锁频方式,设计了更高效的荧光收集系统,优化了软件控制等工作。具体实验方面,实现了多个离子高保真度的内态基本逻辑门操作和探测,并利用该离子体系研究了量子体系的不可逆性,实现了快速
学位
在纳米感知中,基于离子的感知由于有着轻质量、低温、高灵敏度、可调节性、空间可分辨等优点,利用离子对外界事物变化的高灵敏传感特性,获取其中的特征信息,在感知科学和工程领域扮演着举足轻重的作用。使用离子作为探针,与传统传感器有本质的区别,尤其是在量子信息和人工智能蓬勃发展的时代,传统传感技术已经不能满足当下人们日新月异的生活需求,提高传感器的精确度、准确度和灵敏度是一项极具挑战又迫切需要的工作。本文主
学位
病原微生物是指可以侵犯人体,引起感染甚至传染病的微生物,也称病原体。病原微生物传播速度快、范围广,严重威胁着人类的生命健康和生产生活,快速灵敏的病原体检测方法可以有效的控制疾病传播并防止疾病爆发等。传统病原微生物检验方法如平板培养、PCR等虽然在一定程度上可以起到临床诊断的效果,但仍然存在着灵敏度低、成本昂贵、便携性差等问题,这使它们在诊断低浓度样本、混合感染或不明原因感染时显示出局限性。20世纪
学位
锂硫电池具有高理论比容量与能量密度和单质硫储量丰富、价格低廉、环境友好等优势,被认为是极具潜力的新一代储能体系之一。然而,单质硫作为锂硫电池正极材料仍有许多问题亟需解决:(1)单质硫和其产物Li2S的电绝缘性;(2)活性物质在充放电过程中的体积变化;(3)多硫化锂中间产物在电解液中的溶解和扩散导致的穿梭效应。这些问题往往容易造成硫活性材料低的利用率、严重的容量衰减和差的循环稳定性等,进而影响了锂硫
学位
尽管大量的宇宙学和天文学观测数据间接支持暗物质的存在,但人们一直没有直接探测到暗物质的信号,因此暗物质的直接探测也就成为现代物理学最具挑战性的问题之一。超轻暗物质是一大类重要的暗物质候选者,探测超轻暗物质是当前暗物质研究领域的一个重要方向。目前人们开始通过大量的现有实验和设计实验对超轻暗物质候选者进行探测,而原子干涉仪是一种新的精密测量仪器,有望为超轻暗物质的探测开辟新的途径。本论文开展了基于原子
学位