基于遗传规划算法的高维数据特征选择与特征构造方法研究

来源 :河北农业大学 | 被引量 : 0次 | 上传用户:ylm1982123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,癌症疾病的高发病率和死亡率成为死亡的首要原因,基因测序为早期利用机器学习技术发现异常基因并建立癌症预测模型提供技术手段,基因芯片技术产生的基因数据具有高维度、小样本、高噪声等特性,这为数据分析增加了难度。分类问题中,特征的质量与分类效果密切相关,尤其是在高维基因数据分类应用中,大量冗余和不相关特征严重影响分类的性能。特征处理方法可对基因数据进行降维处理,剔除掉与致病无关的基因,提高基因数据的分类正确率。特征选择可以减少特征数量,通过选取高质量特征来提高分类正确率,但是原始特征有时不能达到预期效果,此时可以通过特征构造方法构造出新的更有效的特征,构造的特征往往具有更好的分类性能。遗传规划算法(Genetic Programming,GP)由于其灵活的表现形式,可以用于处理特征构造任务。然而,在高维分类应用中,巨大的搜索空间对GP的搜索能力是一种挑战。因此本文主要致力于研究融合特征选择与特征构造方法,以期提高基因数据等高维数据的分类性能。论文主要研究工作包括如下几方面:(1)提出一种特征选择与特征构造混合的方法(LFSFC)。本方法使用两阶段特征处理方法对基因数据原始特征进行处理,首先采用基于线性前向搜索算法(Linear Forward Selection,LFS)的特征选择方法对特征进行删减,而后基于GP构造特征,利用原始特征构造更高层次的特征,提高癌症数据的分类预测能力。(2)在特征选择和特征构造方法中选取基于Correlation方法的适应度函数,提高特征与类之间的相关性,降低特征之间冗余度。(3)对八个高维基因芯片数据集采用本文方法进行特征处理,并在K-近邻、朴素贝叶斯(Naive Bayesian,NB),C4.5,朴素贝叶斯决策树(Naive Bayesian Tree,NBTree),最好优先决策树(Best First Tree,BFTree),缩减误差修剪树(Reduced Error Pruning Tree,REPTree),随机树(RandomTree),随机森林(RandomForest)八种分类器上进行分类测试。(4)通过Friedman显著性检验对实验结果进行分析,比较方法LFSFC与两种Benchmark方法和三种基准方法在不同分类器上对基因芯片数据的分类性能。实验得出LFSFC方法最终只需要构造20个特征,在大多数数据集上仅为原始特征数的0.02%左右。实验结果表明LFSFC方法能大幅度降低基因数据的特征维数且提高癌症疾病的分类正确率。经Friedman显著性检验得出,本文方法LFSFC在不同分类器上明显优于两种Benchmark方法和三种基准方法,经进一步分析得出决策树分类器更适用于LFSFC方法。
其他文献
本研究以新疆伊吾县野山杏为试验材料,通过优选最佳树脂类型,优化野山杏果肉总黄酮[TotalFlavonoids from Wild Armeniaca sibirica(L.)Lam,TFWA]的纯化工艺条件;建立同时测定
伴随着十三五规划总体目标顺利开展,农业现代化取得明显进展,人民生活水平和质量普遍提高,乡村振兴、电商扶贫助力脱贫攻坚。新时代电子商务的发展为农业生产带来机遇和挑战,习近平总书记在陕西考察时称赞“电商作为新兴业态既可以推销农副产品、帮助群众脱贫致富,又可以推动乡村振兴,是大有可为的”。在此背景下,对电子商务下的生鲜农产品需求研究是极为重要的,把握市场需要,抓住发展机遇,对农产品生产销售企业具有十分重
三峡水库建成后这些地段由于有近半年时间都处于完全水淹情况下,很少有植物能够生存,从而给库区内消落带造成水土流失、环境污染等一系列问题,这成为三峡水利工程建设带来的最严
低维纳米材料的研究为人们解决能能源、环境污染等问题提供了方向。随着能源问题的日益凸显,太阳能作为一种绿色可再生能源受到了极大的关注,光催化材料也随之应运而生。二维结
自互联网技术蓬勃发展起网络游戏产业从未面临如此严峻的挑战,根据中国音数协游戏出版工作委员会发布的《2018中国游戏产业报告》显示,2018年中国网络游戏产业业务收入同比增长仅仅只有5.3%,在过去的10年时间中这一增量从未低于过17%的年增长率。在网络游戏人口持续增加的背景下,何以网络游戏产业发展停滞不前,乃至倒退。究其背后原因发现受2018年国务院机构改革影响,负责网络游戏审查的原国家新闻出版广
随着进入全球科技化的时代,高技术产业已经成为衡量国家综合实力的重要指标。我国更是将高技术产业提升到国家实施创新驱动发展的战略高度,并制定了一系列的政策来推动高技术产业的发展。目前,我国已经成为高技术产业十大出口国之一。我国的高技术产业虽然取得了很大的发展,但是与外国发达国家相比,我国的高技术产业发展水平仍然相对落后,尤其表现在自主创新、创新效率等问题上。如何提高我国高技术产业创新效率,实现从“制造
巴尔喀什黑伞(Agaricus balchaschensis Samgina&G.A.Nam)隶属于蘑菇科,蘑菇属,是新疆独有的野生食药用真菌。由于野生巴尔喀什黑伞的生境受到严重的破坏,野生资源已不能满足
干旱胁迫时影响植物生长发育的主要环境因素,水分的缺乏会导致植物的生长受到抑制甚至死亡,研究耐旱植物的作用机制以及抗旱基因的应用已成为热点。本文以紫萼藓科毛尖紫萼藓为
本论文主要研究S研究院业务聚焦战略下的组织机构调整和薪酬制度改革。论文首先介绍了被研究对象的基本情况,确定采用资料整理与分析、调研问卷和访谈的方式作为重点研究方法
本文研究具有一般边界条件的广义BBM-Burgers方程和阻尼波动方程的初边值问题解的渐近性态.对于半空间上的广义BBM-Burgers方程,在流函数为凸和大初始扰动条件下,用L~2能量方