面向基因表达谱数据分类的特征选择方法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:liveonmountain
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因表达谱是大量基因表达水平信息的集合。研究表明,癌症的发生在分子水平上通常表现为基因表达水平的改变。因此,利用基因表达谱来判别出与癌症密切相关的少量基因,对癌症的诊断和治疗具有重要意义。而基因表达谱数据通常具有维度高样本量低的特点,这给传统机器学习方法带来了挑战。在判别少量致病基因之前,需要从成千上万基因中去除大量无关基因,其中特征选择是一种有效手段。本文以多个公共的基因表达谱数据集为基础,利用特征选择方法筛选出在癌症中具有差异性表达的基因,并由此指导后续的分类任务,将最终的分类性能作为我们基因选择方法的评价标准。围绕基因表达谱数据分类的基因选择问题,本文主要做了如下工作:1)基因表达谱数据的数值表征了基因的表达水平,相邻数据之间不具有连续性,同时在数据采集的过程中经常包含噪声,基于此本文引入了离散化的数据预处理方式。通过与其他数据预处理方式对比,验证了基因表达谱数据的离散化处理能够带来更优的分类准确率。2)对于具有高维小样本特性的数据,过滤式的特征选择算法能够快速且有效地得到在不同类别上具有差异表达的特征,但不同的过滤式方法得到的关键特征往往存在较大差异,分类稳定性不高。因此本文利用集成学习的思想,提出了集成过滤式的特征选择方法GSEF,实验结果表明本文方法比其他单一过滤式特征选择算法具有更优越的分类性能,同时分类稳定性也得到了提升。3)基于集成过滤式的特征选择方法GSEF能快速去除无关特征,但是并不能去除冗余特征。为进一步去除冗余特征本文将GSEF与谱聚类和SVM-RFE相结合提出了基于聚类和SVM-RFE的多重特征选择算法SC-SVM-RFE。将本方法作用于四个公共的癌症基因表达谱数据集,在三个分类器上(SVM、KNN、NB)验证所选基因的分类性能,实验结果表明本文方法所选的特征子集具有比SVM-RFE和GSEF方法选出的特征更优越的分类性能,特别是在所选特征数量较少的情况下,本文方法更有效。
其他文献
江西廖坊水利枢纽灌区工程南港水U型渡槽属于预应力渡槽,断面尺寸大、自重较重,施工难度大。文章在综合借鉴我国大型水利水电工程大型架桥机设计施工经验的基础上,对南港水U
阐述了毫米波、厘米波吸收材料与近红外、热红外涂料的相容性,隐身蓬布材料制作的工艺路线.试验证明:该蓬布材料具有优异的物化性能及隐身功能.
近几年中,中国石化工程建设企业先后在伊朗、沙特等中东地区中标和执行炼油化工EPC总承包项目。从这些项目执行的情况来看.由于国家政策法规、业主的习惯与选择的标准不同。尽
目的:分析戈利木单抗联合雷公藤多苷对甲氨蝶呤(MTX)治疗反应不佳活动性类风湿关节炎(RA)的临床效果及安全性。方法:选择MTX治疗反应不佳(MTX治疗超3个月,但应答不足)的活动
以源自内蒙古呼和浩特市婴儿粪便选出的10株乳酸杆菌为试验材料,通过微生物分析方法,筛选乳酸菌合成维生素B6能力较强的菌株并对其进行初步鉴定。结果表明,有4株菌株B25、B72、B
目的了解消化性溃疡患儿胃pH值的动态变化。方法对25例经胃镜确诊的消化性溃疡患儿作24小时胃pH值测定,25例健康儿作对照组。结果胃溃疡和十二指肠溃疡患儿各项胃pH值监测指标的差异无显著
通过测定新疆民丰县622组农业用地及非农业用地土壤样品中Cd、Hg、As、Pb、Cr、Cu、Ni、Zn等八项指标的含量,确定土壤地球化学背景值,并采用污染负荷指数法进行土壤质量评价
我国关于知识产权保护的单行法比较完备,但是基于单行法保护的前提,却使一大部分应受保护的客体被漏掉了。因此,反不正当竞争法的附加保护就显得相当必要。单行法保护与反不
对支架类冲压零件采用级进模加工时,模具结构设计中应注意的主要问题进行了研究和讨论,并着重介绍了级进模中的浮动托料、变曲加工方向转换及自动送料等装置。
从20世纪80年代起,脱口秀节目逐渐发展成为一大时尚,成为观众们喜爱的节目形式之一。作为一档制作精良的大型时尚文化脱口秀节目,《金星秀》由著名舞蹈家金星担纲主持。节目