高通量数据特征选择算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:Engineer7002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高通量检测技术的不断进步,在生命科学领域,人们获得了各种各样的高通量数据,如:基因表达数据,单核苷酸多态性数据等。这些数据为我们从多种层面去认识疾病发生的机理,同一物种不同种群间的差异等问题提供了详细的资料。但通常这些数据均是小样本高维数据,即:数据中样本个数远小于特征个数,直接用传统的模式分类方法处理它们时往往发生“维数灾难”现象。目前避免“维数灾难”现象的有效手段之一是:在模式分类之前,先用特征选择方法移除数据中的无关特征。本文以基因表达数据和单核苷酸多态性数据为例从如何考虑多个特征间的相互影响和如何定义揭示多个特征间相互影响的相关性测度两个角度对高通量数据的特征选择做了研究,主要工作如下:1.由主分量分析与形状分析相结合的基因选择方法没有有效利用样本的类别信息。针对这一缺点,提出了一种新的基因选择方法,该方法将间隔最大化判别分析和形状分析相结合,在选择基因过程中不仅整体上考虑了基因与基因之间的相互作用,也考虑了基因与类之间的相互关系,提高了所选基因集的分类性能。在四组微阵列基因表达数据上的实验结果表明,所提方法的性能优于主分量分析与形状分析相结合的方法,与当前两个流行的多变量Filter方法相比,所提方法也具有一定的优势。2.提出了一种基于最大条件相关最小冗余准则的特征选择方法:CMRMR。该方法可以看作是最大相关最小冗余方法的扩展,其主要特点是:在特征选择过程中,不仅考虑了已选特征与新选特征的相关性,也考虑了已选特征对新选特征与类标相关性的影响。我们分析了最大条件相关最小冗余准则与现有其它基于条件互信息的特征选择准则的异同,结果表明:现有基于条件互信息的方法均希望新选特征尽可能多的带来已选特征集中不含有的类标的信息,它们的不同之处在于实现这一目标的策略不一样。在模拟数据和基因表达数据上的实验结果表明CMRMR选择的特征集的分类性能在大多数数据上高于最大相关最小冗余方法,与其它基于条件互信息的方法性能相近。3.目前常用的特征相关性测度可有效评估两个特征之间、单个特征与类标之间的相关性,但却是将特征孤立看待,没有考虑其它特征对它们相关性的影响。针对这一问题,在整体考虑特征之间关系思想的指导下,将稀疏表示技术应用于特征选择,提出一种基于稀疏表示系数的特征相关性测度,它与现有特征相关性测度的不同之处在于:可以揭示特征在数据中其它所有特征影响下与目标的相关性,反映特征间的相互影响。4.为了验证稀疏表示系数作为一种特征相关性测度的有效性,我们首先在基因表达数据上考察了稀疏表示系数评估的前q个最相关的特征的分类性能,然后用稀疏表示系数分别替换最大相关最小冗余准则和经典方法FCBF中所用的相关性测度,构成新的特征选择准则和新的特征选择方法,并在基因表达数据上考察了新的准则和方法的性能。我们也将基于稀疏表示系数的上述方法和准则与现有的方法和准则进行了比较,相关实验结果表明:基于稀疏表示系数的方法和准则是有效的,它们在大多数数据上的性能高于现有方法和准则。5.由于稀疏表示系数测度特征的相关性时,考虑了特征间的相互影响,因此稀疏表示系数可以在一定程度上揭示特征间的交互作用。为了清晰的认识稀疏表示系数这一特点的优势,重点考察了稀疏表示系数选择的单核苷酸多态性集合区分相近人群的能力。我们首先基于国际人类单体型图计划第三阶段的单体型数据构造了四个分类问题:美国人分类问题、亚洲人分类问题、非洲人分类问题和欧洲人分类问题,其中第一个分类问题中各人群差异比较大,后三个分类问题中的人群均比较相似。然后比较了基于稀疏表示系数和基于Symmetrical Uncertainty、修正的T-检验和Fst的特征选择方法选择的单核苷酸多态性集合的差异及分类能力。实验结果表明:基于稀疏表示系数选择的单核苷酸多态性集合的分类能力明显高于其它方法,尤其是在相近人群的区分问题上;基于稀疏表示系数选择的单核苷酸多态性集合与基于其它三个测度选择的单核苷酸多态性集合的差异比较大,所选单核苷酸多态性在染色体上的分布特点也不同。
其他文献
目的:探讨人工流产术后立即口服避孕药临床疗效及其安全性。方法:对200例行人工流产术的早孕患者进行回顾性分析研究,研究组130例人工流产术后立即口服避孕药(特居乐),对照组70例
目的 1.调查胆道镜取石手术患者术中舒适状况。2.分析影响胆道镜手术患者术中舒适状况的相关因素。方法 采用便利抽样的方法选取2014年9月至2015年2月期间郑州大学第一附属医
目的:通过分析急诊死亡患者的病因构成,提高抢救成功率。方法:对203例死亡病例进行回顾性分析。结果:死因顺位前四位是院前猝死、心血管疾病、交通伤、脑血管疾病,共146例。男性
目的探讨精液冷冻复苏过程对人精子印记基因SNRPN、GRB10甲基化状态和mRNA表达的影响。方法将20份人精液标本平行分为2组:新鲜组(n=20)和冷冻组(n=20)。采用计算机辅助精子分
文章从社会生活的视角出发,探究一种自下而上、直接面对当代老年人社会生活基础需求的住区户外公共空间的研究方法,为老龄化背景下的住区公共空间设计策略提供更为准确的定向
国防费用的支出对一个国家的国民经济发展可能产生正反两方面的效应,在调控稳妥的情况下,国 防费对国民经济具有积极的推动作用,并且可以建立巩固的国防后盾来保卫国家的安全
收藏、研究、教育是博物馆三大功能,而陈列展览则是博物馆实现其社会教育功能的基本方式。陈列展览中的讲解是博物馆服务观众,辅助观众在博物馆参观,进行学习的一个重要方法
能源作为一种重要资源,其循环利用是经济可持续发展的基础。以能源持续利用中“废弃物处理”为重点,采用演化博弈方法建立上、下游企业的“复制动态”模型,对生态系统中企业生态
随着软件复杂性的增长、软件不断向其它领域的渗透及对软件可靠性要求的增加,如何保证软件的质量和可信性变得越来越困难,相应的成本也不断增加。早期的研究表明测试成本已经
以产业间贸易为主导模式的外贸易格局对我国对外贸易的飞速发展和拉动国民经济的持续增长起到了重大作用,但这种传统的贸易模式已显出疲态,正经受着日益严峻的挑战。贸易模式从