论文部分内容阅读
随着数据在日常决策中的重要性越来越显著,人们对数据处理技术的要求也不断提高,需要对数据进行更深层次的处理,以得到关于数据的总体特征以及对发展趋势的预测。然而数据量爆炸性的增长使得现有的知识发现算法存在着一定的局限性,因此必须对现有的算法进行改进或创建新的算法以适应时代之需。 遗传算法是模拟自然进化的通用全局搜索算法,它具有简单、通用、鲁棒性强和适于并行处理的特点,为其他科学技术无法解决或难以解决的复杂问题提供了新的计算模型。而今,交易数据库在不断地增大,花费在扫描整个数据库的时间会越来越长,效率的低下促使我们必须寻找新的关联规则挖掘算法。因此,本文提出了ARM-GA算法,并针对矿山事故数据库进行了简单的计算和分析,取得了很好的效果。 大家普遍认可:在数据挖掘技术中,决策树是在数据集上发现有价值模式的最高效的方法之一。然而,当需要在大规模数据集上进行规则挖掘时,可比例缩放性和准确率问题却无时不困扰着决策树算法,使它力不从心。为了在有限的计算能力内构建出高质量的决策树、挖掘出实用的规则,本文提出了DT_GA(Decision Tree on geneticalgorithm)算法,它是将随机采样技术、遗传算法和标准的决策树算法集成在一起而生成的。该算法是使传统决策树算法的质量得到提高的一种有力方法。 本文分别对交叉和变异算子给出了新的定义,并取决策树在测试集上的分类准确度作为种群中各树个体的适应值。通过在矿山数据集上进行试验研究,主要对平均计算时间和分类准确度这两个指标进行了考察和分析,发现DT_GA算法:即使在较低的采样水平上也能获得标准决策树算法一样的分类准确度;无论初始种群质量如何,该算法都能产生高准确度的决策规则,且结果具有一致性;该算法具有很好的比例缩放性,对大型数据集的挖掘很有效。为更加适应实际的需求,本文还提出了DT_GA算法可做的改进,并给出了改造后的CAMM算法的大致描述。