【摘 要】
:
数据挖掘是指从数据库中抽取隐含的、具有潜在使用价值信息的过程,是一种新型的数据分析技术,已被广泛应用于金融、保险、政府、教育、运输以及国防等领域。数据分类是数据挖掘
论文部分内容阅读
数据挖掘是指从数据库中抽取隐含的、具有潜在使用价值信息的过程,是一种新型的数据分析技术,已被广泛应用于金融、保险、政府、教育、运输以及国防等领域。数据分类是数据挖掘中一个重要的内容。分类存在很多方法,其中决策树算法是以实例为基础的归纳学习算法,以其易于提取显式规则、计算量相对较小、可以显示重要的决策属性和较高的分类准确率等优点而得到广泛的应用。据统计,目前决策树算法是利用最广泛的数据挖掘算法之一。然而在实际应用过程中,现存的决策树算法也存在着很多不足之处,如计算效率低下、多值偏向等。因此,进一步改进决策树,提高决策树的性能,使其更加适合数据挖掘技术的应用要求具有重要的理论和实际意义。本文针对上述数据库知识发现的不足,进行深入的研究,探索数据挖掘中决策树分类的组合优化算法,以便更好地提高分类的准确性。应用于实际工作中,主要研究工作如下:首先,从宏观上介绍了数据挖掘和分类技术的理论基础,并重点对决策树算法进行了分析和比较。然后,提出了一种新的适合于高维数据库的组合优化决策树算法。相比于传统的分类算法,该算法从降维、属性选择、可扩展性和剪枝等方面进行了改进。其中最主要是提出基于加权属性协调度并结合简化预剪枝策略的决策树算法—DTBAC算法,以及加强算法可扩展性的FAVC集。最后,着重介绍了所研发的组合优化决策树分类器系统。它以DTBAC算法为核心算法生成分类器,并应用到医学领域对病人进行分类。通过对比分析发现,DTBAC算法在总体性能上要优于目前被广泛采用的ID3算法。
其他文献
为提高对纹枯病、稻曲病的防治效果,在正确防治方法的基础上,选择对路药剂、提高防效至关重要。通过水稻纹枯病、稻曲病田间药效对比试验,可知:每667m2用18%阿特米SC 40g、24
本研究选用一种改进的估算方法,以沈阳地区玉米单产作为研究对象,首先确立基准时段,建立气温影响系数,来分析气温对玉米单产的影响程度,估算过去50年气候变化对沈阳地区玉米
试验探讨了优质杂交水稻Q香优100在高塝田的分蘖成穗规律情况。结果表明在滞增叶龄期移栽的分蘖发生率、成活率、成穗率及产量比滞增叶龄期过一叶移栽的分蘖发生率、成活率、
从文学类别的角度来说,英国作家约翰·班扬的《天路历程》经历了一个嬗变的过程:从单纯的宗教性文本到文学性作品,而这恰恰表明其独特的"审美意识形态",以及多维的解读空间,
研究3个水稻组合扬花后剑叶衰老过程中光合生理指标的动态变化。结果表明:水稻剑叶衰老过程中,不同水稻组合在叶绿素含量、净光合速率、气孔导度、Rubisco酶、LHPC和PSⅡ蛋白
水资源与人类社会发展和生存环境密不可分。水价设计是水资源可持续利用的重要措施。论文采用实证研究与规范研究、定量分析与定性分析相结合的方法对水资源定价进行系统分析
通过观察记录16个自交系玉米品种的出苗期、出叶速度、叶片数、生育期,研究地膜覆盖对玉米生育期的影响。结果表明:地膜覆盖使玉米出苗期提前了2-3天;出叶速度在前期较慢,后
在当今激烈的市场竞争环境下,服务质量对任何一家企业的重要性都不言而喻。改进服务质量的起点是准确发现其不足之处,因此,对服务质量测量的研究有很重要的现实意义。从80年代后
发票管理是税收管理的重要组成部分,管好发票是管好税源的重要基础。加强发票管理,可以有效地发挥税收监控职能,维护市场经济秩序,保障国家税收收入。当前我国发票管理存在重
本文分析和总结了国内外城中村改造和城市更新的研究理论与实践,认为深圳城中村是我国国情、深圳经济发展下的必然产物,其改造涉及规划、建设、投资回报、管理制度和对策、参与