论文部分内容阅读
在现实数据集中不可避免地存在噪声,如何检测并去除噪声是数据挖掘中的一项重要研究内容。本文提出了一种基于增益的得分算法来检测噪声。为了检验该算法的有效性,以决策树为工具。在产生决策树之前,先用该算法去除训练集中的噪声,以免噪声导致决策树过大和过度拟合。对12个UCI数据集利用该算法去噪,再用C4.5生成决策树,实验结果表明,与不去噪时生成的决策树相比,改善了分类精度,且树尺寸明显减小。