论文部分内容阅读
连续属性离散化是数据预处理的关键步骤之一,在实际应用中往往通过高效的启发式算法来计算离散化结果。对基于辅助矩阵和信息熵的两类启发式离散化算法进行实验研究,分别选取每类算法中的5种典型方法,通过系列实验,对两类算法的性能进行对比研究,结果表明:辅助矩阵类算法具有相对较高的样本识别能力,但算法复杂度较高,运行时间更长,较适合于处理小容量数据集;信息熵类算法的特性则正好与之相反。