【摘 要】
:
数据挖掘在众多领域中都发挥着不可替代的作用,一直是各国学者研究的热点。分类是数据挖掘的一种重要的手段。I D 3算法是提出最早,最经典的一种决策树分类方法。I D3在选择
论文部分内容阅读
数据挖掘在众多领域中都发挥着不可替代的作用,一直是各国学者研究的热点。分类是数据挖掘的一种重要的手段。I D 3算法是提出最早,最经典的一种决策树分类方法。I D3在选择分类属性时,依赖于信息熵的计算。因此,经过ID 3算法分类后,取值较多的属性将会被选为决策树的分类节点。很多时候,这种分类情况是不符合实际的。另外, ID 3算法的计算过程含有过多的对数计算,比较复杂,而且不能够处理具有多种类别属性值的数据集。针对ID 3的这三种不足,本文对ID3进行了改进,首次提出了一种新的选择分类属性选择方法,基于麦克劳林—优先选取值的ID3算法( ID 3 based on Maclaurin and Priority , MPID 3)。本文利用换底公式log 2γ= lnγ/ ln 2和等价无穷小代换ln(1 + x )≈x将ID 3算法中的对数计算进行了简化。由于简化过程会引起误差,本文通过选取合适的常数ζ和简化后的ID 3算法计算公式相乘来补偿误差。针对ID 3算法的取值偏向问题,本文引入了“分类属性优先选取值”进行了改进。本文对MPID 3的性能给出了严格的理论证明。最后,通过实验证明了MPID 3比经典的ID 3计算方法及现有的两种计算方法在计算时间和分类精确度方面具有优势。另外,针对样本集中某一确定属性值的记录集合为空的情况,本文给出了自己的修改方案。
其他文献
近年来所提出的谱聚类算法是一种较为流行的聚类分析方法。谱聚类算法建立在谱图理论基础上,与传统的聚类算法相比,它具有能在任意形状的样本空间上聚类,且能收敛于全局最优
社会-经济系统结构和动力学分析和建模是复杂系统研究的重要课题。近年来复杂网络研究兴起,自然界和人类社会中结构不规则、复杂的、时间上动态演化的网络成为关注热点.大量分
随着21世纪以来互联网的普及以及计算机运算和处理性能的大幅度提高,全球进入信息化时代,信息也成为了当今社会最重要的商品。在信息获取越发迅速的同时,信息的安全保密问题也越
种类繁多的社交网络(Social Network Sites)成为近些年来热度最高的网络应用,而其中大量的多媒体信息引起了研究人员的兴趣。针对社交网络中多媒体数据的研究主要关注于两点:
星载数据传输网络用于星上各种设备之间的通讯和数据交换,是整个星载电子系统的关键部件之一。星载数据传输网络的可靠性、速度和灵活性直接影响着现代星载电子系统的性能。S
人体行为识别是计算机视觉领域的重要课题之一,近年来也是备受研究者关注的一个研究方向,可以广泛应用于智能视频监控、智能机器人、运动分析等领域中。然而由于人体运动是非
随着社会信息化的发展,人类现在以及未来都面临着信息爆炸的问题,对于数据的分析和处理正变得日益困难。在此背景下,聚类分析技术应运而起,并得到了蓬勃发展,很多聚类算法被
随着社会经济的不断发展,软件企业为了在激烈的市场竞争下取得优势,必须不断改进自身的流程管理。因而,软件生命周期的管理也逐渐成为软件业关注的热点问题。同时,知识的重要性也
随着信息技术的快速发展和计算材料科学的进步,数值模拟技术实现了二元合金晶体生长微观结构的研究。相场法作为目前最有效的微观组织数值模拟方法之一,采用相场法模拟二元合
伴随着当今社会人口结构老龄化的发展、空巢老人无人关照缺少及时医疗救助导致的悲剧事件日益增多,触及到了远程医疗资源匮乏这个社会的痛点,也同时激发了人们对远程医疗行业尽