决策树C4.5算法的改进研究

来源 :辽宁工程技术大学 | 被引量 : 0次 | 上传用户:pingwuse
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对决策树C4.5算法在处理连续型属性时比较复杂和建树时分裂属性选取标准—信息增益率的计算复杂度较高等问题,结合云模型和因素空间理论给出一种改进的决策树C4.5算法.  对C4.5算法所采用的离散化方法,提出一种基于云理论的全局离散化方法.先在样本集合上对每个连续型属性的取值进行归一化处理,选出划分区间的基准属性,后利用正态云模型对每个连续型属性进行离散化.并加以实验验证,结果表明该方法具有一定的理论价值和实际意义;利用因素空间理论中的分辨数概念,推导出分辨度公式,用分辨度代替C4.5算法中分裂属性选取的标准—信息增益率,可以更简便地生成一棵决策树.  对改进后的算法编写了Matlab程序,利用UCI数据集进行测试,与C4.5算法进行对比.实验表明,改进后的算法在树的规模和分类精度方面都优于经典的C4.5算法.
其他文献
信息隐藏是信息安全研究的一个重要分支。随着互联网的发展以及图像传输的增多,利用数字图像进行秘密信息传输的信息隐藏技术研究获得了比较大的关注,并出现了大量的研究成果
混沌的研究在动力系统领域中占有重要地位,是当今的热点课题,混沌理论越来越广泛的应用在几乎所有的科学领域,因此,它受到从事数学、理论物理、天文学以及生物学等工作者的普
首先该文以[9]中的数学模型为基础,并且引进了工资收入函数,改进了原有模型,由此可以去掉对于投资者初始自有资金的严格限制,使所得结果更接近于经济实际.其次该文推广了[10]
该文运用概率测度弱收敛理论,研究了三类服务中断排队模型.1.分析服务中断的单服务台GI/G/1排队系统模型,获得了在不同话务情形下,一些排队指标包括up时间、down时间、闲期、
该文研究Banach空间中一类非线性算子不动点的存在唯一性及迭代收敛性.首先研究形如A=B+C的算子,其中B为线性或非线性算子,C为e-凹凸混合单高算子,得到其不动点的存在唯一性
该文通过对发电机组的全出力运行状态,降出力运行状态,强迫停运状态,备用状态进行分析建立起发电机组的容量模型,负荷模型,电量不足期望值模型,从而更加准确的预测评估电力系
该文首先,提出了一个新的解决TSP的Hopfield神经网络(HNM)的能量函数,为种神经网络仅包括N(N-1)/2个神经元,而Hopfield所提出的神经网络要用N个神经元,这里,N为旅行商所要走
作为现代几何设计中的一种广泛使用而有效的设计手段,扫曲面(Sweeping Surface) 在CAGD,CAD/CAM中均扮演着十分重要的角色,该文对扫曲面进行较系统的讨论,主要结果 有:1.构造