论文部分内容阅读
连续属性离散化算法是数据挖掘和知识发现领域中非常重要的一部分,其性能的好坏直接影响到机器学习的精度和效率。大部分机器学习的工具是针对具有离散属性值的数据集设计的,然而现实生活中的数据集往往包含连续属性值(比如温度,高度等),这给机器学习的效果带来了影响,使其往往不能得到令人满意的精度。因此在进行数据挖掘之前,通过离散化算法对数据集进行预处理是非常有必要的。本文分析了现有的大部分离散化算法,并分别从算法时间复杂度,精度及效率等方面进行了比较,最终选择对CAIM算法进行改进。CAIM算法是一种全局的、静态的、自上而下的有监督离散化算法。相比于其它离散化算法,CAIM算法具有时间复杂度小,精度和效率相对较高的特点,但该算法存在着三个不足:首先,在离散化的过程中没有考虑到属性的重要性;其次,缺乏对决策表不一致率的考虑;最后,采用caim值作为离散判别式也有其不合理之处。这常常造成信息丢失,从而影响到机器学习的精度。鉴于上述三个缺点,本文提出了两种改进的算法。首先,本文针对上述CAIM算法的前两个缺点,提出了一种Improved CAIM离散化算法,该算法根据DSST差异相似集理论来度量属性重要性,在考虑决策表不一致率的情况下对数据进行进一步的离散化。通过使用C4.5和支持向量机工具进行性能分析,相比于CAIM算法,本文提出的Improved CAIM算法得到了更高的分类识别率。其次,本文针对CAIM算法形成离散区间过少导致机器学习得到的精度低的问题,提出了一种新的基于决策类和属性依赖度的离散化算法——λ-CAIM。该算法采用统计学中常用的λ相关系数做为离散化判别式,避免了采用caim值作为离散判别式时产生的问题。实验表明,该算法在分类学习时得到了更高的分类识别率。