基于排序熵的有序决策树高效算法研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:yilong_hongru
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于排序熵的有序决策树归纳在选择扩展属性时,需要计算每个条件属性的每个割点的排序互信息,并通过比较这些排序互信息的大小来选择扩展属性,计算复杂度高,特别是在处理海量数据时,计算时间复杂度高会成为该算法的应用瓶颈。  针对以上问题,本文研究了如何提高有序决策树的计算效率,主要工作包括以下两个方面:  1.在选取扩展属性时,将割点分为平衡割点和非平衡割点两部分,建立了一个数学模型,从理论上证明了排序互信息最大值不会在平衡割点处达到,而只能在非平衡割点处达到。这个结果意味着算法在计算排序互信息时只需遍历非平衡割点,而无需计算平衡割点处的值,这样可提高有序决策树归纳的计算效率。  2.针对海量数据的有序分类问题,论文探讨了几种基于排序熵的有序决策树并行策略,并给出了基于MapReduce的有序决策树算法并行化方法,可使选择扩展属性的时间降低、算法的效率提高。  分别在人工数据集和实际数据集上进行了实验,实验结果表明本文提出的方法可提高有序决策树归纳的计算效率。
其他文献
本文描述了一批例图的四着色情况.在许寿椿教授的编写的两个程序(程序getSome4colors和getTfc)的基础上,给出了加强搜索的方法,进一步增加批量着色的数量.在此批量着色的基础
  本文给出了π-正则半群上的弱自然偏序关系定义,并根据该定义进一步研究了各类π-正则半群的相关性质,共分八章.第一、二章为本文的引言和预备知识.在介绍了本文涉及的基本
  本文主要证明了拟共形映射的一个Schwarz型定理.设f(z)是单位圆到自身的保向同胚,f(o)=o.首先,我们证明了定理A.若f(z)满足(a)对单位圆内所有同心圆环R都有ModR≤KModf(R)
本文的工作分为三部分,在第一部分中定义了比投射包更广泛意义上的包——P-投射(预)包的概念,研究了P-投射(预)包的上核,即PP-投射模:首先给出了PP-投射模的等价刻画,发现了PP
供应链管理可以使企业在多方面获得实在与潜在的收益,能够优化运行状况,所以关于供应链的研究一直是近些年来世界各国的一个重要研究热点。本文对遗传算法在供应链建模与优化中
本文通过对近期文献中一类常见的用于图像处理的能量泛函的深入分析、研究,经过精确的计算,并应用文献[1]中对于离散问题的一种特殊处理法,对问题作相应的简化,又根据文献[2]
本文围绕非线性PDE的对称、扰动和约化问题主要做了以下两方面的工作: 一、提出一种新的求解非线性扰动微分方程的方法,这种方法的关键在于选取合适的Lie-B(a)cklund对称(高
本文应用空间理论与算子理论的方法,系统研究了一般Banach空间X中的各种正交性概念,研究了它们之间的相互关系,给出了各种正交性的等价刻画.全文分三章,现分述如下. 第一章研
  由于随机游动在保险理论研究中具有很重要的作用,研究它的一些重要的性质对保险估算会起到重要的作用,所以本文继续考虑随机游动的一些特点,针对于在风险模型中出现的延迟更
让学生掌握科学的读书方法,养成良好的读书习惯,这是中学语文阅读教学追求的最高境界.因此,语文阅读教学必须摆脱“教材”、“应考”的束缚,践行“以课本为基础,走出课本,重