Taiga: Performance Optimization of the C4.5 Decision Tree Construction Algorithm

来源 :Tsinghua Science and Technology | 被引量 : 0次 | 上传用户:yyxu123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Classification is an important machine learning problem, and decision tree construction algorithms are an important class of solutions to this problem. Rain Forest is a scalable way to implement decision tree construction algorithms. It consists of several algorithms, of which the best one is a hybrid between a traditional recursive implementation and an iterative implementation which uses more memory but involves less write operations. We propose an optimized algorithm inspired by Rain Forest. By using a more sophisticated switching criterion between the two algorithms, we are able to get a performance gain even when all statistical information fits in memory. Evaluations show that our method can achieve a performance boost of 2.8 times in average than the traditional recursive implementation. Classification is an important machine learning problem, and decision tree construction algorithms are an important class of solutions to this problem. It consists of several algorithms, of which the best one is a hybrid Between a traditional recursive implementation and an iterative implementation which uses more memory but involves less write operations. We propose an optimized algorithm inspired by Rain Forest. By using a more sophisticated switching criterion between the two algorithms, we are able to get a performance gain even Evaluations show that our method can achieve a performance boost of 2.8 times in average than the traditional recursive implementation.
其他文献
在计算机图形学所涉及的诸多问题中,求解线性系统一直扮演着重要的角色,是求解算法中必不可缺少的一部分。尽管大部分问题求解的都是稀疏方程,但是随着数据维度的不断增加,求解大型稀疏线性系统仍然是一个难题,尤其是在运行内存和运行时间方面。在求解关于梯度的优化问题时,其优化变量通常是函数值,而不是梯度值,这就使得在求解的过程中不具有可扩展性,因为在求解过程中要涉及到梯度变量到函数变量的转化。本文提出了一种新
学位
本学位论文主要考虑图的染色问题,图的染色理论是图论研究的重要内容之一.  本文引入了图的星边星-全染色、D(2)-点可区别星全染色、有向图的星边弧染色及图的邻点可区别关
互补问题是运筹学领域中一个重要的分支,被广泛的应用于很多实际问题.目前,很多数值求解方法被提出,其中基于重构函数的重构方法有很大的优越性.本文讨论求解互补问题的两种
本文主要研究下述Kirchhoff型波动方程初边值问题的长时间行为:此处为公式其中α∈(0,1),Ω是股RN中具有光滑边界?Ω的有界域,g(Χ)是外力项,f(u)是非线性项(增长指数为p),当1≤
创新能力是促进学生美术能力提升的重要因素,调动学生参与的积极性,给予学生自我发挥的空间,激发学生的好奇心,以及关注学生的创造力,能够有效地提升学生的创新能力.总之,教
图的谱理论是图论与组合数学论的一个重要研究领域,包括图的邻接谱,拉普拉斯谱,无号拉普拉斯谱和规范拉普拉斯谱四个方面的内容。图谱理论在量子化学、物理、计算机科学、通
2006年,彭实戈引入了一种新的非线性期望-G-期望,近几年来关于G-期望理论的发展十分迅速,尤其是关于G-布朗运动的随机积分理论己成为随机分析及数理金融理论研究中的热点问题,早
本文主要研究了含离散时滞的基因调控网络(GRNs)的稳定性分析问题,以及含离散时滞和泄漏时滞的GRNs的状态观测器设计问题.第一,分析了含离散时滞的GRNs的稳定性问题.首先,应用微积分的性质和拉格朗日中值定理,将原系统模型变换为具有有界不确定参数和分布时滞的降阶系统.其次,将原系统的渐近稳定性问题为转化为考虑降阶系统是鲁棒渐近稳定性问题.然后,应用Cauchy–Schwarz不等式、Lyapun
学位
本文主要研究积分算子Sac,bf(Z)=(l-|z|2)a∫Bn(1-|ω|2)b|1-|cf(ω)dν(ω),其中Bn是Cn中的单位球,dν是Bn上标准化的体积测度,a,6,c是实参数,且c不是非正的整数。这种算子是Berezin变换的
本文运用凝聚映射的不动点定理及锥上的不动点指数理论,研究了Banach空间E中一阶导数项含有脉冲的二阶脉冲微分方程周期边值问题。  一.在非紧性测度条件下,利用凝聚映射的不