基因表达谱数据的特征选择方法应用策略研究

来源 :第三军医大学 | 被引量 : 3次 | 上传用户:liuln6
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究背景:随着分子生物学技术和基因微阵列的不断发展,通过定量测量我们可以很容易获取大量的基因表达谱数据,而且得到的数据质量也越来越高。基因表达谱数据具有维数高,样本小,且存在大量噪声的特点。有研究学者针对基因表达谱数据的特点,利用统计学习和模式识别的方法来对数据进行有效的挖掘。目前最为常用的方法是对表达谱数据进行降维,选择出具有代表性的信息基因,在保证具有较高分类精度的前提下同时提高学习算法的性能和效率。特征选择通过剔除不相关和冗余的特征,而达到降低特征个数,提高模型精确性,减少运行时间的目的。目前虽已有了大量的特征选择算法,但如何针对基因表达谱数据结构自身特点来选择最优的算法还存在着一定困难。因此本研究结合生物学和模式识别的相关知识,通过对一些常用的特征选择算法进行比较,最终提出一种可供参考的选择标准。研究方法:本研究中通过模拟不同特征数、样本量、分类情况以及噪声大小的数据集,选用了8个特征选择算法,并在3种分类器中进行测试,以分类精确度和计算复杂度作为衡量指标来对每一种方法的优劣性进行评价。最后将其应用到真实数据集中,并对每种方法的结果进行分析和比较,选择出最佳的特征选择方法。研究结果:对于不同特点的表达谱数据集分别使用三种类别的特征选择方法来分析都能有效的降低特征维度,通过比较分析后我们发现:SVM-RFE算法在特征数较少和样本量较小的时候有很好的分类结果;Wrapper SVM算法在较少样本量和较多PCR特征基因情况下的分类效果较好;Wrapper k-NN算法对具有较少特征数和较多的FCR特征基因数据集有较好的实用性;Relief F算法能很快的从高维数据集中获得特征子集,该算法在特征数较多和样本量较大的情况下效果好;mRMR算法同样适合特征数较多的情况,并在信噪比较高的情况也有也有很好的效果。研究结论:对肿瘤的类别进行划分并从中挖掘有生物学含义的知识时,信息基因的筛选是非常重要的步骤。对分类无关基因的排除可以进一步降低数据量或减少数据的维数,从而提高分类器的性能。本文从已有的大量特征选择算法中,选取了一些常用的方法并针对表达谱数据的不同特点来进行对比研究,最终建立方法应用策略,为基因表达谱数据的分析提供了方法学上的指导。
其他文献
有效评价水泥浆静液柱压力变化对于进行水泥浆防窜研究非常关键。通过规范失重和静胶凝强度实验方法,提出了一种水泥浆静液柱压力变化评价实验方法。选用两类降失水剂水泥浆作
小分子RNA在脑内含量丰富。现有研究表明这些非编码小RNA与脑的发生、发育及脑疾患相关,然而他们在神经元老化和神经退行性疾病中的作用机制有待揭示。本论文从研究恒河猴脑m
在中国文化"走出去"的时代背景下,翻译受到各方广泛关注,并肩负重要的历史使命。然而,翻译领域仍然面临众多问题与挑战,亟待翻译批评进一步深化其理论化与系统化研究。《翻译
对选育出的天竺桂耐寒良种,进行容器苗商品化培育方法的研究,从种子采收及储藏、播种育苗、容器苗培育、商品容器苗质量分级、造林应用等方面对容器苗商品化技术进行总结,以
改革开放以来,我国畜牧业得到了前所未有的发展,不仅促进了经济的快速增长,还逐渐满足了国民日益增长的物质需求,进一步提高了我国居民的生活水平。但是我国幅员辽阔,从改革开放到现在的40年间,各个地区的资源状况、经济水平、技术水平和消费需求有了巨大的变化,在多种因素的影响下,我国畜牧业养殖区域布局发生了整体向北方、向经济发展水平较低的地区汇集的趋势,经济性因素逐渐取代自然性因素成为影响我国畜牧业养殖区域
近年来,国家越发重视水资源和水环境问题,但纵观以往的水务管理,方式简单粗放、管理手段单一落后、缺乏监管督察,造成了水资源的浪费、水环境的污染、水生态的破坏。随着互联网与传统行业深度融合,水利行业逐渐从数字化演变到信息化。在政策发展的刚需下,为了解决深圳坪山区黑臭水体的治理问题,同时解决水质管理问题以及工程运营维护问题,本文设计并实现了综合水务信息管理平台。本文中的系统采用了B/S应用体系结构。前端
受债权人与股东之间的代理问题影响,增加现金持有带来的公司价值增长由债权人和股东按其在总资产中所占的比例进行分配,这使得现金的边际价值随杠杆率的增加而降低(Faulkende
目的:大量研究表明,在伊马替尼对进展期胃肠间质瘤治疗失败后,舒尼替尼仍对大多患者有疗效,并成为大多数国家及地区的胃肠间质瘤的二线推荐药物。同时,c-kit基因突变与胃肠间质瘤的预后密切相关。我们通过对既往已发表的文献进行系统评价,以比较伊马替尼治疗失败后不同类型c-kit基因突变的进展期胃肠间质瘤患者使用舒尼替尼的疗效。方法:我们通过系统检索PubMed,EMBASE和Cochrane图书馆等数据
目的系统评价醒脑静注射液治疗脑卒中合并意识障碍的临床疗效与安全性。方法计算机检索PubMed、The Cochrane Library、Embase、中国生物医学文献数据库、中国知网、万方数据
研究了线控转向系统的车辆全状态(质心侧偏角和横摆角速度)反馈控制策略,根据虚拟前轮侧偏刚度的概念得到横摆角速度和质心侧偏角的反馈系数,研究了虚拟前轮侧偏刚度系数对极点