改进的有序决策树归纳算法

来源 :河北大学 | 被引量 : 0次 | 上传用户:skyeyviva
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在已有的有序决策树归纳算法中,选择条件属性和决策属性的有序互信息值最大的属性作为扩展属性,没有考虑到那些取值多且有序的条件属性和属性之间的相关性,这就造成了重复选择某个条件属性为扩展属性,这样会使得分类器的分类效果不佳,测试集的精确度不高。针对这一问题,本文对有序决策树归纳算法进行了改进,主要工作包括以下两个方面:1.提出了一种新的有序决策树归纳算法。该算法选择的扩展属性不仅和类的有序互信息值最大,而且要求和同一分支上已被用过的条件属性的有序互信息值最小,可避免同一条件属性的重复选择,真正体现了条件属性和决策属性之间的有序互信息,从而提高了测试精度。2.在有序数据集中,有的属性取值多且有序,也会影响扩展属性的选择,使测试精度降低,考虑到这个问题,用有序互信息率代替有序互信息来选择扩展属性,克服选择扩展属性时偏向取值多且有序的属性,从而提高测试精度。
其他文献
本文研究讨论了一种全新的位基服务算法,从数据挖掘的角度看待LBS问题。这样解决了原来依靠移动运营商基站或者GPS的方案在某些场景下低效或者完全无法工作的问题。所有应用这
电信专题分析(又称决策分析)为解决特定的问题而提出,是一个为特定问题组织数据,挖掘信息的过程。在电信专题分析系统领域,一方面由于起步比较晚,一方面由于决策分析发展迅速而导
随着近年来Internet的爆炸性增长,其安全性问题日益突出。IPSec(IP security)是在IP层实现数据通讯安全的协议,在IP层实现的主要优点有:1)高层的安全技术仅仅保护单个高层协议,而I
Internet的飞速发展使其成为日益重要和最具潜力的资源。WWW作为一种新的信息资源,为计算机领域新技术的产生开辟了新的领域,同时也为传统技术的研究提出了新的方向。 研究
互联网时代的到来,使得高效的搜索引擎成为人们获取信息的最重要手段之一,信息的日益国际化及语言之间的障碍形成了人们对跨语言信息检索的需求,而普遍存在的目标语译词准确性和
分布式数据挖掘的主要目的是为了减少网络通信成本和利用地理上分布的计算资源和存储资源。论文采用网格技术将地理上分布的计算资源合并,并进行分布式数据挖掘,从而实现该目的
单体液压支柱是煤矿地下开采的一种重要的支护设备,单体支柱密封质量的好坏,直接影响到安全生产,因此对单体液压支柱(特别是大修之后)的密封质量检测就显得非常重要。单体液压支
入侵检测系统是一种软件与硬件的结合,它通过分析网络或主机上发生的事件来发现其中的安全隐患。随着近几年网络攻击的事故频频出现,影响范围越来越广泛,入侵检测系统得到越
随着信息技术在电力系统的不断深入与发展,传统的封闭式系统暴露出功能单一、接口专业、结构死板、不易于部署和更新的局限性。而以.NET平台下Smart Client技术的应用显示出
从计算机诞生以来,让计算机或机器人像人类一样具有视觉能力,是科研工作者一直不懈追求的目标。物体检测是人类视觉中的基本步骤和基本功能,为人类了解周围的环境和景物提供了至