论文部分内容阅读
机器学习是让计算机模拟和实现人类学习的过程,目的是自动获取知识。机器学习在人工智能的研究中具有十分重要的地位。归纳学习方法在机器学习中是一种重要的学习方法。作为归纳学习方法的一种,建立决策树的方法被广泛地应用于机器学习的过程之中。本文研究一种基于变精度Rough 集思想的决策树改进算法,其基本特征是把数据预处理(属性近似约简)和决策树建立(属性结点选择)统一在整体框架之内,从而达到在大量数据中有效提取规则的要求。本算法主要分为两个步骤。首先提出条件属性关于决策属性约束度概念。通过计算约束度对条件属性进行近似约简。其次提出基于变精度Rough集的条件属性关于决策属性关联度概念。通过各条件属性的关联度进行决策树结点的选择,从而完成决策树的建树过程。与经典的ID3算法相比,在理论分析方面,本文研究了属性关联度与信息熵之间关系,从某种意义上将两种算法进行适当比较;在实验分析方面,通过两组通用数据,对本文提出的改进算法进行了模拟实验。实验结果表明,改进算法在建立决策树所用的时间和规则的复杂度方面都有一定程度的改进,在规则正确率方面也有所提高。理论分析和模拟实验表明了本算法的合理性和有效性。