基于粗糙集理论的决策树生成系统

来源 :东北师范大学 | 被引量 : 0次 | 上传用户:nc_xujian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是利用分析工具从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取出隐含在其中事先未知、潜在有用的信息和知识的过程,建立数据间关系模型,用其做出预测,从而为决策者提供辅助决策。分类是数据挖掘中的一种重要方法。决策树是一种常用的分类模型,并以其能直接体现数据特点,分类效率高、速度快、理解性好等特点在数据挖掘及其它领域中被广泛使用;粗糙集理论将分类和知识联系在一起,认为知识是将对象分类的能力,是一种处理模糊和不精确数据的数学工具,具有很强的知识获取能力,本论文将基于粗糙集理论实现决策树生成系统。决策树生成系统,包括数据预处理,连续属性离散化,决策树生成,剪枝,评估,及预测,决策森林,生成规则几个部分。数据预处理主要针对数据缺失进行处理,主要方法为忽略元组,使用常量填充,或属性平均值填充,或元组同一类的样本平均值填充。连续属性离散化使用基于变精度粗糙集理论的频率宽度方法,决策树生成使用基于变精度粗糙集理论的分类方法。针对目前剪枝方法的不足,确定决策树复杂度衡量标准,设计一种基于错误率和复杂度的剪枝方法。计算决策树每个节点错误率及复杂度之和作为该节点是否剪枝的标准,这样保证了不过分降低精度的前提下使得复杂度最小。在生成规则阶段主要是将决策树转化为比较直观的IF-THEN规则形式,让用户能更好地理解分类结果。在处理多类数据分类的任务需要得到精确的和易于处理的方案时,传统的决策树分析方法效率和精度比较低。原因是单棵决策树不能提供充足的途径来分配多类的数据。决策森林算法提供了一个有效的方法来解决此问题。本文提出了利用不同决策属性集合构造决策森林的策略。在成熟的理论基础上,通过VC++编程语言开发决策树生成软件程序,并通过实验验证该软件取得满意的结果。我们研究的目的是生成一个紧凑的,高准确率的、易于理解和具有可伸缩性的决策树生成系统。
其他文献
广义五味子科由五味子属、南五味子属和八角属组成,其中前两属为木质藤本,花为结构和功能上的单性花,而八角属为灌木或小乔木,具两性花。该科是被子植物最基部类群之一,具典型的东
动物肠道内寄生着大量微生物,该“微生物组(microbiome)"如同宿主的额外“器官”,行使着宿主自身没有的一些重要功能。肠道微生物既可促进宿主对营养物质的消化吸收,也可以抑制
本文通过对荣华二采区10
期刊
多入多出(MIMO)无线通信技术以其高质量,高速率的特点得到了人们的关注,它在无线链路收发两端均采用多天线,充分开发空间资源,在无需增加频谱资源和发射功率的情况下,成倍地提升了
F-box蛋白是一类含有F-box结构域,在泛素介导的蛋白质水解过程中具有底物识别特性的蛋白质家族。F-box蛋白作为Skplp-cullin-F-box蛋白复合体的组分,参与了体内26S蛋白酶体的降
自动目标识别是当今世界军事技术研究中最具攻关性的课题之一,众多计算机视觉技术均应用于该课题的研究领域中。计算机视觉在目前仍然不能很理想的处理许多自动目标识别方面
本课题是国家863重点课题"Gbps无线传输关键技术与试验系统研究开发”下属的子任务,主要研究Gbps课题的射频子系统的发射机部分。 在宽带接入射频发射机中,我们采用二次变
生命是复杂和多样的,了解控制个体发育基因的进化历史是我们认识生命演化的重要前提。MADS-box基因编码一类转录因子,不仅参与了植物、动物和真菌中的各种生长发育过程,并且与生
钴铁氧体(CoFe_2O_4)薄膜具有较高的矫顽力与磁晶各向异性,化学稳定性和耐磨损性能,可作为高密度磁记录介质。本论文主要研究了缓冲层对CoFe_2O_4/Si(100)薄膜微观结构与磁性能的影响,缓冲层分别是Fe_3O_4和TbFeCo。采用直流磁控溅射技术以及真空退火制备了Fe_3O_4薄膜,并在Fe_3O_4薄膜上采用射频磁控溅射技术制备CoFe_2O_4薄膜。制备的CoFe_2O_4/F
林火是森林生态系统中重要的自然干扰,是森林景观格局、及其动态变化的主要驱动力,在维护森林生态系统的物质循环、能量流动以及生物多样性方面起重要作用。林火烈度作为描述林