论文部分内容阅读
20世纪90年代初,意大利学者M.Darigo等人受蚂蚁在觅食过程中可以找出从巢穴到食物源的最短路径的启发,提出了蚁群算法(ant colony algorithm )。蚁群算法是一种新型的模拟进化算法,具有本质并行、正反馈及协同性等优点,在解决复杂优化问题上显示出了良好的适应性。用该方法求解TSP问题、分配问题、Job-shop调度问题,都取得了较好的实验结果。虽然研究时间不长,但是现有的研究显示出,蚁群算法在求解复杂优化问题方面有一定的优势,是一种有发展前景的算法。
分类规则挖掘是数据挖掘最重要的研究领域之一。分类是对大量有关数据进行分析、学习,并建立相应问题领域中的分类模型的过程,其主要目标是将待分类对象(或模式)归入到特定的类别中。分类规则的挖掘在机器学习、数据挖掘等领域已经得到广泛研究,在医疗诊断、天气预报、市场分析、风险预测等许多领域具有很好的研究和应用前景。
分类操作一般分为以下两个步骤:
第一步是分类器的构造,即建立模型用来描述数据集合和概念集合。在这一阶段需要有一个训练样本数据集(简称训练集)作为输入。训练集是由一条条纪录组成的。每条记录包含若干个属性,组成一个特征向量。在所有属性中有且仅有一个属性作为类别属性。通过分析由这些属性描述的数据库元组来构造分类模型。
第二步是利用模型进行分类。具体来说就是使用第一步训练完成的分类模型来预测数据的类别,或利用该模型对数据集中的每一类别进行描述,形成分类规则。
蚁群算法作为一种新型的模拟进化算法,其在数据挖掘中的应用正逐步引起人们的注意。本文主要研究了蚁群算法,并将蚁群算法应用到数据挖掘中的分类规则挖掘当中,对蚁群算法在分类规则挖掘中的应用做了相关研究,具有一定的理论及现实意义。本文主要内容包括:
1、首先介绍了蚁群算法基本原理及蚁群系统模型,对蚁群算法中相关参数进行了研究, 然后给出了几种改进的蚁群算法,其中包括本人对蚁群算法的一种改进—基于信息素扩散的自适应进化蚁群算法。接着介绍了分类规则挖掘相关知识。包括分类规则挖掘概述,数据的预处理,分类方法的评价标准,几种典型的分类算法及其特性。
2、蚁群算法在分类规则挖掘中的应用。提出了一种改进的基于蚁群算法的分类规则挖掘算法—基于自适应机制和变异策略蚁群算法的分类规则挖掘算法。改进的算法采用了不同的信息素更新方法,引入了自适应机制及局部变异和全局变异相结合的变异策略。算法采用局部变异概率及信息素残留度作为自适应参数,在进化过程中进行自适应调整,较好地解决了加速收敛和停滞早熟的矛盾。实验结果表明,该算法能够达到加快收敛速度、缩短计算时间、提高预测准确率、挖掘出更简洁规则的目的。
3、蚁群算法在分布式分类规则挖掘中的应用。本文还将蚁群算法引入到分布式数据挖掘当中,提出了一种基于蚁群算法的分布式分类规则挖掘算法,对该算法进行了模拟实验。实验结果证明,将蚁群算法应用于分布式分类规则挖掘中是一种新颖而有效的方法,不仅可以提高分类的准确率,而且还可以充分发挥分布式处理速度快和节省存储空间的优势。