基因表达数据分类问题中的特征选择研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:henbuxiaxin11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
DNA微阵列技术的发展带来了大量的基因表达数据,分析和挖掘这些数据背后所蕴含的知识是目前生物信息学研究的一个热点。作为最基本的数据挖掘方法,分类在基因表达数据的分析中有着广泛的应用。由于基因表达数据具有小样本、高维的特点,传统分类方法的直接应用往往效果不佳,分类前进行降维已成为学术界的共识。特征选择由于能够保持每个特征的生物学意义,成为基因表达数据中最常用的降维方法。特征选择不仅可以降低分类学习算法的时间和空间复杂度,避免维数灾难,提高分类的预测精度,同时还有助于生物现象的解释。   本文针对两分类基因表达数据的特征选择问题,深入研究了后向和前向两类特征选择方法,主要的工作和创新点有:   1.在后向特征选择方面,针对SVM-RCE耗时的缺点,提出了SVM-RCE的改进方法ISVM-RCE。SVM-RCE主要包括聚类和聚类评价两个部分,SVM-RCE的聚类评价是对每个聚类分别用基于SVM的k-折交叉验证进行记分。k-折交叉验证是导致SVM-RCE耗时的主要原因。ISVM-RCE通过对SVM-RCE聚类评分环节的改进,在不丢失分类准确率的条件下,极大地提高了SVM-RCE的时间效率。   2.在前向特征选择方面,将组合分类器的修剪方法MSPM引入到基因选择,提出了一种前向特征选择方法FFS-ACSA。FFS-ACSA首先利用每个基因的信噪比构造分量分类器,然后用p-不敏感损失函数进行分量分类器(即基因)的选择。在与经典的前向特征选择方法SNR和著名的后向特征选择方法SVM-RFE的对比实验中,FFS-ACSA取得了比SNR方法更好、可与SVM-RFE相竞争的性能。  
其他文献
近些年来,科技的迅猛发展,使系统辨识向着更为复杂,更加严密的方向发展。模糊RBF(radial basis function,RBF)网络非线性系统辨识,融合了神经网络和模糊逻辑两者的长处,展现
姿态基准系统又称为航姿参考系统(AHRS,Attitude and Heading Reference System ),通常由三轴加速度计、三轴陀螺仪以及数字磁力计组成,其主要任务是通过惯性传感器即时输出
随着组织工程学和临床医学等学科的发展,组织工程心脏瓣膜在心脏瓣膜病的治疗中得到广泛使用。目前,组织工程心脏瓣膜的培养大多采用没有预适应功能的静态培养方式。在这种方
随着人类对海洋探索的逐渐深入,UUV在民用和军事领域的应用越发广泛,在UUV作业完成后,需要对其实施回收进行数据下载和能源补充等。近些年来,进一步考虑到隐蔽和安全因素,UUV
目标识别及跟踪技术是一门新兴的综合性交叉学科,包含自动控制、图像处理、目标识别、电子电路、伺服控制等多门学科,各学科技术的综合应用,其水平代表着一个国家先进科技的
我国煤矿安全事故,尤其是重特大安全事故的频繁发生,给国家和人民的生命财产带来巨大损失。深入分析煤矿事故发生的原因,主要是由煤矿安全监控系统的不健全造成的。因此利用
随着我国现代化进程的不断推进,人们现代化生活水平不断提高,对医疗服务水平也提出越来越高的要求与期望,但是我国人口众多,传统医疗资源相对有限。本论文提出一套多参数远程无线
目前,离线编程的广泛使用使得机器人的工作效率大大提高,同时激光视觉传感器在焊接中扮演越来越重要的角色,然而许多离线编程系统中并没有引入激光视觉传感器,不能对传感器进
根据生态系统中物种间的关联性以及物种跟环境的连接而衍生形成的智能优化算法——协同进化算法(co-evolution algorithm,简称CEA)被提出。它是一种新型的进化算法框架。自从C
旋转零件的圆度和圆柱度对高速、高精度旋转机械的运动精度和平稳性影响较大,因此这种类型零件的圆度和圆柱度的高精度现场检测成为关键。为此需要开发成本低、精度高、且使用