基于GMDH的自组织数据挖掘算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:wuyonghong1974
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是从大量、不完全、有噪声的数据中提取隐含于其中的并不为人们所知,但又是潜在有用的信息和知识的过程。目前大部分的数据挖掘方法往往对使用者具有很高的要求,而引入人为因素往往会影响建模的质量。自组织数据挖掘方法以数据分组处理方法(Group Method of Data Handling,GMDH)为核心,使用演化(交叉、变异和选择)的原则实现模型结构综合和模型确认的自动过程,所得模型在记忆能力和泛化能力间达到最佳的平衡。自组织数据挖掘方法针对不同的应用问题设计了一系列算法,其中最具普适性、应用最为广泛的是GMDH多层建模算法。本文针对GMDH多层建模算法的以下两个方面问题进行了研究: (1)对GMDH多层建模算法中部分多项式(参考函数)的改进。原有的部分多项式求解算法使得模型复杂度增长过快,很多潜在的能够更好的描述未知系统的模型将被忽略;另外由于部分多项式的求解基于回归分析,因此回归分析中多重共线性的问题也难以避免。本文从分析快速递归算法(Fast Recursive Algorithm,FRA)中潜在的多重共线性问题入手,提出一种回归项线性相关的检测算法,改进后的快速递归算法被用于GMDH多层建模算法的部分多项式系数估计,新算法建立的模型具有更强的泛化能力且结构更加简单。与同类型的改进算法相比,该算法具有更小的计算开销。 (2)提出一种选择性GMDH网络集成学习算法。GMDH多层建模算法能够在对训练样本进行划分的基础上建立在记忆能力和泛化能力达到最佳平衡的最优复杂度模型,但不同的样本划分将得到不同的模型,因此难以保证模型的全局最优性。本文基于集成学习理论提出一种选择性GMDH网络集成算法。首先将惩罚性样本划分算法用于候选个体的构造,从而提高了候选个体之间的多样性;再利用遗传算法选取候选个体集合的最优子集进行集成从而解决了如何确定GMDH网络集成规模的问题。
其他文献
为了解决搜索引擎查准率的问题,个性化检索技术已逐渐成为搜索引擎研究的热点之一,以期能够更有效、更准确地找到用户感兴趣的内容。本文针对个性化信息检索系统的核心问题--
广义的信息系统安全可以分为操作系统安全和网络协议安全两大部分。操作系统高层应用程序和网络高层应用协议的安全是建立在操作系统底层和网络底层的安全的基础上的。本文分
当前,导航系统已逐步成为一项研究热点,各类导航产品已进入市场,包括车载导航系统,远洋轮船导航系统等。然而,大部分的导航系统都还不具备语音识别功能,例如PDA、PPC、Smart
协议是网络的灵魂,随着互联网的飞速发展和各种新应用的不断出现,网络规模不断扩大,结构日趋复杂,这使得协议测试变得更为重要。协议工程的目的是减少协议开发过程中潜在的错误,提
轮式移动机器人的运动控制是机器人学中最具有挑战性的问题之一,对这一问题的理论研究是广泛而又深入的,但是缺少比较成熟的试验结果。机器人足球比赛的兴起则为这一问题的理论
随着电信运营商竞争的激烈和电信内部业务的增多,电信综合结算的问题日益重要。为实施有效的管理,各个省的业务结算局在建设好综合结算系统的同时,也必须建设可靠、有效的监控系
随着现代工业的发展,对配电系统的要求也越来越高,将现代电子技术、传感器技术、通讯技术、计算机及网络技术应用于传统的配电系统,促进配电系统由简单的控制向智能化的保护与管
随着信息时代来临,嵌入式系统设备得到了广泛应用,电器智能化、电子设备便携化促使设备网络化、小型化,随之产生了方便电子设备入网的接入问题。如何使办公设备、家用电器方
如何帮助学生实现认知上从理论到实践的飞越,是传统计算机体系结构教学面临的最大挑战。基于高密度现场可编程器件FPGA,构建可重构的计算机系统快速原型设计实验平台,能给学生创
高性能计算的迅猛发展使其在医学、航天、生物等领域中占有举足轻重的地位。随着问题复杂度的提升,高性能集群的规模也随之增加。传统的集群监管方式已无法满足用户需求,命令