基于GEP的kNN算法改进研究

来源 :广西师范学院 | 被引量 : 0次 | 上传用户:raymond20082002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
预测建模是数据挖掘中的一项重要任务。现在很多企业使用预测技术来改善商业决策、提高生产率、检测疾病、预测天气等等。k NN算法是预测建模最简单最有效的算法。k NN算法是基于实例的学习,使用算法时我们必须有接近测试样本数据的训练样本数据。由于k NN算法具有准确率高、对离群点不敏感、对数据无假定输入要求等优点,在分类、回归、聚类等领域中得到了广泛的研究与应用,现已成为数据挖掘十大算法之一。然而,k NN算法在一些应用中也存在缺点。例如,多数类偏向、最优k值难以确定、维数灾难等。为此,专家学者们提出了一些新算法和改进算法来解决k NN算法存在的问题。针对以上问题,本文基于QENN算法提出了RBQENN算法,解决了k NN算法对不平衡数据分类时的多数类偏向问题。针对RBQENN算法的最优参数难以确定问题,本文提出了基于GEP的参数优化方法来解决。此外,本文还引入GEP作为特征选择方法解决RBQENN算法的维数灾难问题。本文将每个算法都跟其它算法进行了对比实验来证明提出算法的有效性。本文主要工作包括:(1)针对k NN算法在对不平衡数据分类时的多数类偏向问题,引入QENN算法,提出RBQENN算法,该算法只选取超球半径内的训练样本作为最近邻,并通过实验证明RBQENN算法在分类性能和回归性能上优于k NN算法和QENN算法。(2)针对RBQENN算法的参数优化问题,本文提出了基于GEP的RBQENN算法参数优化方法,该方法利用GEP算法在RBQENN算法参数取值范围内搜索最优参数值,并通过实验证明提出的参数优化方法的有效性。(3)针对RBQENN算法的维数灾难问题,本文提出了基于GEP的特征选择方法,该方法利用GEP算法对数据集的特征组合搜索最优特征子集,并实验证明提出的特征选择方法的有效性。本文研究工作的意义:通过本文中的实验表明本文提出的算法在分类和回归上都取得了较好的实验结果,因此本文研究工作具有一定的应用价值。
其他文献
以优良玉米(Zea maysL.)自交系抗感杂交组合(R15×掖478)的F2群体为材料,构建了239个分子标记(包括151个SSR标记和88个AFLP标记)的玉米分子连锁图,覆盖全基因组3 463.5 cM,相
《有色矿冶》期刊董事单位代表座谈会于1999年12月29日在中国有色金属工业沈阳公司召开。这是杂志董事会自1994年成立以来非常重要的一次会议,会议对1999年以前的工作进行了总结,对进入二十一世
随着现代教育的发展,职业教育已经成为我国教育体系的重要组成部分。学生学籍成绩信息管理是整个学校管理工作中的关键环节之一,涉及到学生学籍管理、成绩管理、教师管理和课程
由于传统能源的消耗和环境的恶化,清洁的可再生能源目前在全球范围内被广泛应用。风能具有无污染、低成本、大规模等优势,使其成为一种重要的能源。然而,作为影响风力发电最重要的因素,风速具有不确定、不稳定的特性,对其准确的预测在电力的分配、调度和风能转换系统的规划、维护中都有重要的意义。对于一些新建立的风电场或风机,历史数据不足使得其无法建立一个准确的模型。而对于那些建立很久的风电场或风机,它们拥有长期的
如今智能表单系统已经成为协同管理软件中的一个必不可少的部分,因而也就决定了它在协同管理软件中的地位是不容忽视的。目前,在很多企业智能表单的应用已逐渐取代了纸张进行信
我国高原山区,气候湿润多雨,山区公路边坡地质灾害情况特别严重,在降雨、地震和人为工程影响下,常发生大规模滑坡、崩塌和泥石流等地质病害。国内在滑坡治理工程中常大量采用抗滑
专家系统作为人工智能领域中的一门重要学科20多年来一直处于活跃状态,目前专家系统已经在各个领域引起广泛关注,但是由于专家系统开发复杂、模块众多、领域性强使得其的重用性
数据挖掘作为一门新兴学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。通过数据挖掘能自动处理数据仓库中的海量数据,抽象出具有意义的
自V. Vapnik提出的支持向量机理论以来,因其坚实的理论基础和诸多良好特性,在近年获得了广泛的关注。最小二乘支持向量机是支持向量机的一种改进,它将传统支持向量机的不等式约
信息化时代的到来,使人们的信息需求激增。新需求带动新应用,如今,计算机已经广为使用,紧随其后的嵌入式系统成为了又一重要的信息获取和处理途径。网络技术的迅猛发展,为嵌