论文部分内容阅读
数据挖掘是一门多个学科交叉而形成的新兴研究领域,是对传统数据分析方法的扩充与发展。数据挖掘技术领域已逐渐建立起一套系统的理论和成熟的方法,以关联规则挖掘、分类规则挖掘、聚类规则挖掘为主要形式,涉及机器学习、模式识别、统计学、智能数据库、知识获取、数据可视化、高性能计算、专家系统等多个领域。其应用范围也从最初的商业应用逐渐扩展到医疗、金融、生物、电信、军事、体育等诸多方面。
分类作为数据挖掘的重要任务之一,已经提出了以信息论为基础的决策树方法、以概率论为基础的贝叶斯方法,以神经科学为基础的神经网络方法等等,这些算法基本上都是确定性算法。随着信息技术和计算智能的发展,模糊逻辑、遗传算法和神经网络等软计算技术大量的应用到分类规则挖掘中。软计算并不追求问题的精确解,而允许存在不精确性和不确定性,得到的是精确或不精确问题的近似解,也是人脑求解问题特征的体现。
由创始人Zadeh提出的模糊理论模拟人类所特有的模糊逻辑思维功能,成为描述和处理事物的模糊性和系统中不确定性的一种强有力工具。从而使模糊集分类成为分类规则挖掘的一个重要分支。
模糊系统是基于模糊逻辑的系统,其中模糊逻辑既可作为表示不同形式的系统知识的基础,又可用来构造系统变量间的关系。一般的模糊系统是一种基于知识或基于规则的系统。它的核心就是由IF-THEN规则所组成的知识库。一个模糊的IF-THEN规则就是一个用连续隶属度函数对所描述的某些句子所做的IF-THEN形式的陈述。模糊系统可以看作为一种有效的分类系统。
遗传算法及其它的分支算法遵循自然界优胜劣汰的原则。在模糊系统的建立方面,它们表现出比传统数学方法更为明显的优势,能使模糊系统(或其中一部分)自动生成而不用依靠大量的专家知识。
基因表达式编程(Gene Expression Programming,GEP)是葡萄牙科学家C.Ferreira发明的一种新型的遗传算法。基因表达式编程结合了遗传算法和遗传程序设计的优点,克服了它们的不足,拥有了更快更好的运行效率和结果。
传统的模糊系统建立只是利用了专家知识,当专家知识缺乏或大量数据需要处理和分析时,单纯的基于知识的设计过程有其局限性,缺乏一定的学习能力。遗传算法因其高效性和智能性,在模糊系统的设计中表现出了优越的性能。本文以基因表达式编程和模糊系统为主要研究对象,研究利用二者的混合模型进行模糊分类规则挖掘的方法。在第一章介绍了论文的选题及其研究意义、选题的国内外研究现状及研究的主要内容;第二章简单概述了数据挖掘技术,具体介绍了分类规则挖掘,讨论了现有分类挖掘的基本方法、存在的不足和需要解决的问题;第三章对遗传算法的基本思想、特点以及在机器学习中的应用方法做了概述,并简要介绍了由遗传算法发展而来的遗传程序设计,最后着重讨论了基因表达式编程的技术核心、遗传操作和算法流程;第四章主要是对模糊系统的理论基础——模糊理论进行了介绍;第五章介绍了模糊系统及其理论,详细讨论了遗传模糊系统的基础知识,并且分析比较了它的不同学习方法;第六章将前几章所讨论的理论知识和研究方法相结合,提出了两个基于GEP和模糊分类系统的混合模型,并在其中一个模型中引入协同进化思想,利用基本遗传算法和GEP的两个不同种群协同生成一个基于规则的遗传模糊系统,对两个模型在分类问题上的性能进行了比较,分析了实验结果。本文通过分析遗传算法在模糊分类规则挖掘中的应用特点,利用GEP技术和协同进化等思想,研究分析模糊系统建模本身的难点,提出了有效、灵活的、可理解的模糊分类系统。解决了三个关键问题:(1)将遗传算法及其分支基因表达式编程应用到模糊系统的建立中,从而加强模糊系统的学习能力,获得分类精度更高的模糊规则集。(2)利用GEP如何提取模糊规则,解决在规则学习中产生的规则不一致和规则冗余问题,提高学习效率。(3)如何采用协同进化的思想生成新的模糊系统,保持系统的精确性和可解释性的平衡。