论文部分内容阅读
当今社会高速发展,信息量也随之急剧猛增,但却陷入到“数据丰富却知识匮乏”的困境中,函数挖掘作为数据挖掘的重要分支,目的就是从这些大量数据中发现反映存在规律和变化趋势的函数模型,从而来预测和指导实践工作。本文主要研究基因表达式编程方法及其在函数挖掘问题中的应用。基因表达式编程(GEP)是由葡萄牙科学家Ferreira提出的一种新型的自适应演化算法,它是在继承和发展遗传算法和遗传编程优点的基础上发展起来的知识发现新技术,目前已成功运用于函数挖掘、时间序列预测、关联规则挖掘、数据分类、图像处理、机器学习等问题中,它利用简单编码解决复杂问题,性能与传统方法比较表现出显著的优势。本文在进行基因表达式编程研究及其在实现函数挖掘问题的过程中,主要进行了以下几方面的工作:1.首先研究了数据挖掘尤其是函数挖掘的基本特征、发展概况及应用背景;详细阐述了基因表达式编程的核心技术,也就是它独特的编码形式和操作方法,主要包括GEP的染色体构成和编码结构、为评价所求解对环境的适应能力而进行的适应度函数计算、各类遗传操作如一般的选择、变异操作和特殊的倒串、插串、根插串、基因变换、单点重组、两点重组、基因重组等操作、数值常量和系数的处理方法、GEP算法的基本流程等问题,进一步分析GEP在解决问题时呈现出来的显著优越性。2.基因表达式编程需要不断发展和完善,它本身也存在着一些缺陷和不足,一方面要保证GEP算法收敛性,维持种群中个体的多样性;另一方面为了尽快使解种群向最优方向靠拢,又势必影响种群多样性陷入局部最优,造成“早熟”现象的出现。因此本文在分析了传统GEP在维持种群多样性、算法效率、函数模型拟合度等方面存在的缺陷及其原因的基础上,设计了相应的改进方案。主要包括逆淘汰策略来抑制早熟现象的出现,维持种群多样性;基于适应度的自动回退机制、衍生编码重组策略、无树解码方式以提高算法的时空效率;数值常量的确定方法来提高函数模型的拟合程度等使传统GEP算法更加趋于完善。3.在实践方面,主要研究基因表达式编程在函数挖掘中的应用,着重说明了将二者有效结合的具体方法,诸如在函数表达式解码、适应度函数选择、遗传操作的实施、实现函数挖掘的具体过程等问题中的要点,进一步体现了GEP应用于函数挖掘的可行性和独特优势。4.为了验证这种应用的有效性和实现性能,自己开发编制了基因表达式编程实现函数挖掘的软件为实验搭建了平台,分别进行了一元、二元和多元函数挖掘实验,还根据真实数据为实际问题如山东省汽车保有量建立了预测模型,这些都为本文的研究成果提供了可靠的实验依据。同时在不同环境下将本文提出的方法与传统函数挖掘方法、基本GEP算法进行了效果对比,结果表明本文提出的改进GEP算法应用效果良好,函数模型的准确度和拟合度更好,适用范围更加广阔,算法的预测指导能力更强。最后对本文所做研究工作进行了总结,并对未来的发展和继续研究工作进行了展望。