论文部分内容阅读
数据挖掘作为当前的热门研究领域,已广泛应用于科学研究和商业预测等领域,拟从大量的数据中提取潜在的、人们感兴趣的、有用的信息。数据分类是数据挖掘的一个重要分支,按照一组数据对象的特征给出数据对象划分的过程。 本文研究的是基于决策树的分类技术。决策树学习采用自顶向下的递归方式,类似于树的生长,经过层层分枝,最终形成若干个叶子结点,每个叶子结点代表一个决策类别。 由于传统的决策树分类算法存在准确率低下的缺点,为了解决这一问题,本文将人工遗传学和免疫学理论应用于决策树算法,提出了基于免疫遗传算法的决策树分类算法。遗传算法是一种模拟达尔文的遗传选择和自然淘汰的生物进化过程而形成的一种全局优化概率搜索算法。免疫遗传算法是将生物免疫机制原理引入到标准遗传算法中,克服遗传算法的早熟收敛问题,提高全局搜索能力。 本文围绕免疫遗传算法理论及其在决策树的构造这一问题,开展研究工作,并取得了较好的效果。 本文主要研究内容和工作成果如下: (1)系统阐述了决策树学习算法的工作原理和实现方法,并分析了典型的决策树算法之间的优缺点。 (2)详细阐述了遗传算法及免疫遗传算法的工作机理,比较了两种算法的优缺点。 (3)将遗传算法应用到决策树分类方法中,利用遗传算法的全局搜索能力及并行处理能力,以提高决策树算法收敛速率。同时考虑到决策树生成效果的评价因素,提出了兼顾分类的准确度、支持度、简洁度、信息增益率的评价标准体系,作为遗传算法的适应度。实例分析表明,遗传算法在精确度上高于传统的决策树分类方法。 (4)提出了一种基于免疫遗传算法的决策树算法,该算法将免疫算子引入到遗传算法中(包括抽取疫苗,接种疫苗,选择疫苗),以提高决策树分类的质量和效率。实验结果显示,免疫算子的加入,提高全局搜索能力,确保快速收敛于全局最优解。通过对基于免疫遗传算法的决策树算法与基于简单遗传算法的决策树算法的实验结果比较,表明基于免疫遗传算法的决策树算法在保证分类精确度的同时,也使得产生的规则简洁易理解。