基于一般广义熵及非平衡割点搜索的决策树学习

来源 :河北大学 | 被引量 : 0次 | 上传用户:jimmy7346
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类问题是机器学习领域最重要的学习问题之一,而决策树学习算法又是一种典型的分类学习算法。近几年来,对离散值和连续值属性决策树学习算法的研究和改进都已经取得了很大的进展。对于连续值属性的决策树学习算法,学者们提出了多种不同的属性选取标准,但到目前为止,这些选择标准只是处于分析各自的优缺点、比较优劣性的阶段,而没有对多种属性选择标准的共性进行研究。基于此研究现状,本论文主要做了以下三方面的贡献:本文首先根据已有的决策树属性选取标准—信息熵和Gini-Index所共有的特性,给出了一般广义熵函数的定义,并在此基础上提出了一种新的基于分割一般广义熵的连续值属性的决策树属性选取标准。其次,针对连续值属性决策树产生过程中计算的时间复杂度较大的缺点,我们引入了非平衡割点的概念,并通过严格的数学证明给出割点和非平衡割点的关系,即使分割一般广义熵极小化的割点一定是非平衡割点。这一结论表明在连续值属性决策树的产生过程中,平衡割点处的分割一般广义熵不需要计算。理论和实验分析均表明,对于那些训练规模较大,属性取值较多并且平衡割点相对较多的数据集来说,非平衡割点的引入大大减少了分割一般广义熵的计算次数,提高了算法的效率。最后,运用数理统计中假设检验的方法证明了用一般广义熵函数作为决策树的属性选择标准进行建树,在一定的显著性水平下,它们对数据集的扩展能力没有显著差异。
其他文献
随着我国工业的快速发展和国民生活水平的不断提高,废气的排放量也日益增加。空气的质量在不断下降,部分城市的空气已达到严重污染的程度。空气质量的监测已经成为环保管理部
目前,高性能超级计算机的趋势已从高端的大型高性能计算机向计算机机群发展,促进了机群这一计算技术得到飞速发展。随着机群技术的广泛应用,机群系统的性能和可用性需要也在
随着计算机技术、网络通信技术及家电产业的飞速发展,信息技术正逐步向传统的家用电子产业渗透,一种新型产业——信息家电产业正在迅速崛起。嵌入式技术的蓬勃兴起和广泛应用为信息家电的发展指明了技术发展趋势,尤其是与Internet的结合,其作为信息和资源结点的功能越来越明显。与此同时,信息家电平台对嵌入式系统的数据处理能力也提出了更高的要求。本文在分析嵌入式系统中数据库要求的基础上,结合信息家电的面向对象
随着市场经济的飞速发展,以生产为中心、销售为目的的市场战略逐渐被以客户为中心、服务为目的的市场战略所取代。在科学技术,特别是信息技术的大力推动下,企业信息化已经是大势
学位
近些年来,家具配件销售行业的竞争压力越来越大,单纯依靠传统的方法已经不足以帮助销售商获得更大的市场份额和利润空间了。关联挖掘是数据挖掘中的一个重要问题,是发现和分析不同数据项之间的关联性的过程。将关联挖掘技术引入家具配件销售行业中,获取配件产品的销售特点和联系,能够帮助销售商把握消费者的潜在购买习惯和需求,以便制定相应的销售和进货策略。本文研究了关联规则挖掘技术在家具配件销售行业中的应用细节和过程
当今社会,电信网络飞速发展,规模和复杂度都大大增加,人们对网络通信的质量提出越来越高的要求,数字化,宽带化和智能化已成为未来通信发展的方向。传输网络作为通信的主干道,
说话人识别是一项根据语音中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。它不注重包含在语音信号中的文字符号以及语义内容信息,而是着眼于包含在语音信
设计有效的去噪算法是图像处理领域一项传统的挑战性工作。稀疏三维变换域的协作滤波方法是现有最新型的处理加性高斯随机白噪声的去噪算法。由于其算法的基本组成部分是块匹
随着科学技术的飞速发展,无线网络应用越来越广泛。一方面,性能和安全是人们关注的无线移动自组织网络的两个重要因素;另一方面,网络编码已被证明可以有效提高无线网络的各种
随着信息技术的发展以及网络的普及,网络中的许多资源都需要共享。传统C/S模式的架构几乎不能承受住高并发量的客户访问,而且伴随共享资源的增多,对服务器的存储能力也提出了