基于基因表达数据的癌症特征基因选择方法研究

来源 :北京工业大学 | 被引量 : 6次 | 上传用户:majing1619
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着微阵列技术的发展和癌症基因表达数据的积累,从海量基因表达数据中选取特征基因用于癌症分类的研究引起研究者的广泛关注。然而由于基因表达数据的样本数量只有几十个而维数却高达上万个,基于机器学习和统计分析的传统分类方法容易出现过拟合或维数灾难的问题;此外,仅少部分基因与癌症的发生相关,基因表达数据中存在大量的冗余和不相关基因。从海量的基因表达数据中选择癌症类别相关的特征基因,对于癌症临床诊断、分类等提供重要的参考。特征选择作为处理基因表达数据的一种典型方法,从原始特征中仅选择与疾病类别相关的特征基因,不仅能够规避维数灾难,降低计算的复杂度,还能有效提升分类效果,并且所选择的特征基因还有明确的生物解释性。因此本文就基因表达数据的癌症特征基因选择方法,分别从单个特征评价、子集评分以及稀疏嵌入学习三个角度进行了研究,主要工作有:(1)将局部线性表示Fisher准则(Locally Linear Representation Fisher Criterion)这种特征提取方法改进为LLRFC score特征选择方法,同时结合特征间相关性分析进一步排除冗余,提出一种新的特征选择方法LLRFC score+。基于对LLRFC特征提取方法的分析,将其改进为一种对单个特征打分的Filter型特征选择方法LLRFC score。由于该方法没有考虑特征间的相关性,所选特征子集中仍有冗余特征。因此,利用皮尔逊相关系数,提出了一种能够滤除冗余的特征选择方法LLRFC score+。并将两种方法应用于9种不同类别的癌症基因表达数据,分别与Laplacian score、T-test和Fisher score三种方法选择的特征进行分类效果比对,结果发现LLRFC score和LLRFC score+两种方法分类准确率要比其他三种方法高。相比LLRFC score方法,LLRFC score+方法的分类效果更好,充分证明了我们所提出方法选择特征的有效性。(2)提出一种基于子集评分的有监督局部线性嵌入特征选择方法SSLLE(Subset-score Supervised Locally Linear Embedding)。有监督局部线性嵌入方法(SLLE)能够有效保持数据间的局部特性还充分考虑样本标签信息,在高维数据的分类中广泛应用,但其仅从单个特征评价的角度选择特征,所选特征集合并非最优分类特征子集,因此本文结合图论框架下迭代优化子集评分特征选择方法,提出一种基于子集评分的有监督局部线性嵌入特征选择方法SSLLE。并将其应用于6种不同类别的癌症基因表达数据,和基于特征评分的有监督局部线性嵌入特征选择方法FSLLE进行分类效果比较,结果证明从子集角度评分的SSLLE方法更有效,所选择特征的分类效果更好。(3)提出一种联合稀疏局部线性嵌入的特征选择方法JLLESR(Joint Locally Linear Embedding Sparse Regression)。基于稀疏范数学习的方法能够有效用于特征选择,但稀疏方法是基于特征的全局结构,忽略了特征分布的局部结构。而局部线性嵌入学习方法LLE能够很好地保持特征间的局部近邻关系。因此将LLE方法和稀疏学习相结合,提出一种联合稀疏局部线性嵌入的特征选择方法JLLESR,由原始特征与低维嵌入的变换矩阵的2,1范数作为“罚函数”加入目标函数进行特征的稀疏约束,最小化原始特征回归到其低维嵌入的目标函数,根据特征在回归函数中的重要性进行评判,选择贡献度大的特征组建特征子集。在6种公开的肿瘤基因表达数据集上与LLRFC score(本文所提第一种方法)、Laplacian score、Fisher score以及T-test等特征选择方法进行分类效果比对,JLLESR的分类效果最好。此外,这种方法不受类别标签和参数的影响。
其他文献
<正>本刊讯2018年3月7~9日,2018中国(北京)未来教育装备展示会暨第三届未来教育高峰论坛在北京国家会议中心举行。此次展示会暨论坛由中国信息协会主办,中国信息协会教育分会
存现句是表示什么地方存在、出现或消失了什么人或物的一种句型,它是一种特殊的动词性谓语句。本文首先概述了存现句的基本特点,接着对不同句式存现句谓词的语义特征进行了分
<正>高铁建设具有产业链长、投资和需求拉动作用大等特点,对促进就业、拉动经济增长具有十分重大的作用。按照铁路投资与相关产业1∶10的比例计算,仅京沪高速铁路两年就拉动
新医改体制下的医院,国家投入了大量的财力、物力,作为医院的管理者,代表国家行使卫生救治工作,体现着国家民心工程的深入人心,为使国家的造福于民、方便于民的国家惠民政策,
为了提高轨道车辆几何曲线通过计算的精度和效率,基于轨道车辆几何曲线通过计算原理,提出了一种基于尺寸驱动的轨道车辆几何曲线通过计算参数化图解法,利用在Solidworks平台
目的:观察小剂量尿激酶联合抗凝药物治疗下肢深静脉血栓的疗效。方法:选择下肢深静脉血栓29例随机分为对照组14例和观察组15例,对照组采用单纯序贯抗凝治疗,观察组在序贯抗凝
通过芜湖长江大桥A标段在软土层中钻孔桩的施工实践 ,总结钻机选型、护筒埋设、泥浆指标控制和水下混凝土灌注等经验体会。
应急管理是针对特重大事故灾害的危险问题提出的。应急管理是指政府及其他公共机构在突发事件的事前预防、事发应对、事中处置和善后管理过程中,通过必要的应对机制,采取一系
<正>理论家张闻天说过:"生活的理想,就是为了理想的生活。"幼儿园作为一种学前教育机构,是幼儿集中生活的场所,旨在让幼儿的身心获得健康发展,为他们将来的理想生活奠定基石
本文结合教学实践,对农村初中英语口语与听力教学的困境进行了分析,并提出了相应的解决方法。