论文部分内容阅读
使用遗传算法对基于规则的模糊分类系统进行学习和优化是模式分类中的一个重要分支,在具有非精确和非确定信息的分类应用中具有重要的理论和应用价值。该类方法在复杂环境中面临着两个挑战:一是遗传算法的搜索效率导致的准确性问题,二是分类规则集的复杂程度导致的解释性问题。这两个问题直接制约了系统在现实中的应用。本文围绕着这两个问题展开研究,主要的研究工作体现在以下三个方面。(1)按照词语计算的概念,对分类规则采用词语的形式进行描述。根据5个原子词语及给出的4个语言限定的相似性变换方法构成分类规则的模糊隶属函数,采用语言建模的方法,使规则的条件设置符合人类推理的机制。在此基础上,设计了将专家知识融入系统构建过程中的方法,并根据传统的遗传机器学习方法,给出了以准确性为目标的模糊规则自动获取的算法,包括编码、适应度函数、遗传操作及一些特殊策略。(2)针对遗传算法在高维及不平衡数据分布的情况下难以进行全局搜索的问题,将共享和排挤两类小生境技术应用于模糊规则的学习中,获取较优的特征属性或分类边界。对传统机器学习方法的搜索能力进行分析,据此给出模糊规则之间相似度(距离)的度量,采用适应度共享和确定性排挤,减轻典型算法选择机制对低适应值的个体的选择压力,保持种群的多样性,从而保证算法对整个问题空间的有效搜索。同时,预先缓存各语言词语间的相似性值,减少算法运行中规则间相似度的计算量。实验采用构造出的一系列分类数据分布以及标准的测试数据集对传统和基于小生境的学习方法进行测试,表明引入了小生境的学习算法能在高维及不平衡的数据分布上获取比传统方法准确率较高的模糊分类规则。(3)阐述了解释性的各指标,分析了系统构建过程的不同阶段中对各指标的要求。针对语言建模的方法仍需以合适的模糊规则数目、规则条件数目以保证良好解释性的问题,结合准确性将基于相似性简化和基于Pareto的NSGA-Ⅱ的多目标优化算法应用于模糊分类系统的优化。简化算法以聚集函数法将多目标转换为单目标,对已有的模糊规则集进行优化,而NSGA-Ⅱ算法以Pareto秩作为适应度值,通过对训练数据集的直接学习而能产生不同的非支配解集,提供不同的折衷方案供决策者进行选择。通过在标准测试集上的实验,将本文的方法与C4.5及GP-COACH方法进行比对及分析各方法的性能。