基于变精度粗糙集的决策树分类算法研究

来源 :大连海事大学 | 被引量 : 3次 | 上传用户:aiggo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘自上世纪80年代后期出现以来,经过二十多年的发展,现在已成为机器学习和人工智能这两大热门领域的重要研究内容。特征属性提取、冗余属性约简、分类精度和算法效率的提高以及相关算法针对某特定领域或背景的改进和应用都是目前数据挖掘的研究重点。在数据挖掘的所有方法中,决策树分类算法以其计算量小、容易理解、运行结果直观易懂等优点,受到众多学者关注。所以,本文通过对相关领域现有算法的深入研究,针对属性约简和决策树分类存在的不足,做出相应的改进,并选择多个UCI数据集做对比实验,取得不错的效果。具体来说,主要研究内容包括以下三个方面:(1)在进行属性约简时,现有算法所采用的重要属性选择标准倾向于选择取值个数较多的属性,而没有考虑属性取值的有效性。因此,本文提出了一种新的重要属性选择标准,该标准使用了支持度对属性的有效取值进行统计,并将有效取值个数和p_逼近精度综合作为衡量属性重要性的标准。(2)本文针对现有决策树分类算法存在的对噪声数据敏感和分裂属性选择困难等不足,结合变精度粗糙集能够容忍噪声数据的优点,提出了一种新的分裂属性选择标准,该标准从变精度明确区和信息论的角度进行综合考虑,使得改进算法构造的决策树既能有效抵抗噪声数据又具有较高的正确分类率。另外,通过引入置信度和支持度的概念实现在决策树构建过程中的预剪枝,可以有效降低树的规模;将匹配度应用到对测试数据的类标号预测中,提高分类精度。(3)将经过属性提取、数据预处理等步骤的冠心病中医诊疗病例作为实验数据。首先进行属性约简,挖掘出对冠心病有影响的因素;然后使用约简后的数据构建决策树,提取决策规则,实现对冠心病病例样本的中医症型分类。
其他文献
蛋白质相互作用是分子生物学研究的热点和难点。蛋白质在细胞水平所发挥的生命活性都是通过蛋白质—蛋白质之间的相互作用来完成的。例如细胞的代谢、信号转导途径、免疫确认
学位
随着工业生产和科学技术的快速发展,对质量要求越来越高。近几十年代以来,伴随着大型设备例如:人造卫星、火箭、宇宙飞船等的不断出现,社会开始出现对产品的可靠性、安全性、
无线传感器网络(Wireless Sensor Network)技术是现代信息技术领域中具有交叉学科性质的高新技术,在军事领域、民用领域和工业领域中有着广泛的应用。IEEE 802.15.4协议为无
当前,社会标注系统成为研究的热点,在该系统中用户可以为自己所上传的资源自由的添加标签。由于每个用户的知识背景不同,造成了很多标签不能较好的描述标注资源的内容,甚至有
随着生活水平的不断提高,城市夜景亮化现在已经成为城市文明进步的象征,是现代化城市建设中必不可少的一部分。LED作为一种色彩鲜艳的绿色光源,在国家“绿色照明”、“节能减排”的号召下得到了大力的推广,许多商家都把目光投向了LED光源。LED有着亮度高、功耗低、寿命长等特点在景观亮化照明领域中占据着领先地位,把城市建筑物,娱乐休息场所装点得五彩缤纷,惟妙惟肖。但人们在欣赏彩灯的同时似乎觉得太过于平静,缺
高性能计算机是一个可以处理海量数据和大型应用的计算机系统,它在教育、科研、石油、气象等多个领域发挥着日益重要的作用。近年来,随着高性能计算机技术应用的不断加深,系统内
随着3G通信技术和移动互联网的迅猛发展,基于IP网络的多媒体传输成为电子技术、计算机技术和通信技术相结合的一项技术。与此同时,多媒体的实时通信已经成为网络通信中一项非
水下运动目标的识别与跟踪是水下自主机器人(AUV)视觉领域的研究内容,同时也是目标分类、目标行为分析等高级操作的基础,在计算机视觉处理领域具有很重要的作用。它是一门融
近年来脑功能研究在婴幼儿智力开发、认知功能障碍评估、老年痴呆症等脑疾病防治、脑疲劳监测等脑功能研究的许多领域取得了重大进展。脑功能的研究方法可分为主观评定法和客