论文部分内容阅读
数据挖掘是从大量、不完全、有噪声的数据中提取隐含于其中的并不为人们所知,但又是潜在有用的信息和知识的过程。目前大部分的数据挖掘方法往往对使用者具有很高的要求,而引入人为因素往往会影响建模的质量。自组织数据挖掘方法以数据分组处理方法(Group Method of Data Handling,GMDH)为核心,使用演化(交叉、变异和选择)的原则实现模型结构综合和模型确认的自动过程,所得模型在记忆能力和泛化能力间达到最佳的平衡。自组织数据挖掘方法针对不同的应用问题设计了一系列算法,其中最具普适性、应用最为广泛的是GMDH多层建模算法。本文针对GMDH多层建模算法的以下两个方面问题进行了研究:
(1)对GMDH多层建模算法中部分多项式(参考函数)的改进。原有的部分多项式求解算法使得模型复杂度增长过快,很多潜在的能够更好的描述未知系统的模型将被忽略;另外由于部分多项式的求解基于回归分析,因此回归分析中多重共线性的问题也难以避免。本文从分析快速递归算法(Fast Recursive Algorithm,FRA)中潜在的多重共线性问题入手,提出一种回归项线性相关的检测算法,改进后的快速递归算法被用于GMDH多层建模算法的部分多项式系数估计,新算法建立的模型具有更强的泛化能力且结构更加简单。与同类型的改进算法相比,该算法具有更小的计算开销。
(2)提出一种选择性GMDH网络集成学习算法。GMDH多层建模算法能够在对训练样本进行划分的基础上建立在记忆能力和泛化能力达到最佳平衡的最优复杂度模型,但不同的样本划分将得到不同的模型,因此难以保证模型的全局最优性。本文基于集成学习理论提出一种选择性GMDH网络集成算法。首先将惩罚性样本划分算法用于候选个体的构造,从而提高了候选个体之间的多样性;再利用遗传算法选取候选个体集合的最优子集进行集成从而解决了如何确定GMDH网络集成规模的问题。