面向基因表达数据的并行特征选择及集成分类

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:xujc8639
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学的研究处在一个数据爆炸的时代,近年来在基因组学、代谢组学、转录组和蛋白质组学等领域技术的进步,使得生物学家可以有更多的数据从不同方面对生命体进行分析。非正常的生命活动通常会导致基因的异常表达,这种表达值的变化可以通过微阵列技术以基因表达数据的形式呈现出来。对基因表达数据的分析可以诊断和识别植物胁迫响应类型,在出现相应症状之前减少由这些胁迫造成的影响。因为基因选择是分类中非常重要的一步,高效的基因选择和样本分类方法在大规模基因表达数据的分析中变得越来越重要。  Pathway是通路映射的集合,它代表了在分子间相互作用、反应和关系网络上的知识。利用Pathway知识进行基因初步选择,每个Pathway单元对应一个基因子集,提高基因选择结果在生物学角度上的可解释性。本文采用基于相交邻域粗糙集的属性约简方法在每个基因子集中筛选出关键基因。在集成分类阶段,采用结合近邻传播聚类的选择性集成方法。使用近邻传播聚类对基分类器进行聚簇划分,选择作为类代表点的基分类器参与最后的集成分类。在拟南芥胁迫响应相关的基因表达数据集上进行实验,表明结合Pathway知识的集成方法与现有的经典集成方法相比在准确率上最多可以提高12%,并且选择出的基因都是与植物胁迫响应相关的。  为避免在基因初选过程中剔除掉一些对分类具有潜在价值的基因,本文去除基因初选阶段,提出了相交邻域粗糙集的矩阵计算方式和近似集并行计算方法来加快计算速度,直接使用相交邻域粗糙集进行重要基因的选择。同时在基因选择过程中采用多种度量标准作为启发信息,以提高筛选出的基因子集的差异性。除此之外,对结合近邻传播聚类的选择性集成分类方法进行改进,提出一个新颖的动态选择性集成方法。在三个拟南芥胁迫响应数据集上的实验结果表明提出的方法与带有基因初选的方法相比可以获得更好的分类性能,并且采用多种启发信息能够提高基分类器之间的差异性,获得更好的分类性能。
其他文献
目的:探讨C-MYC、BCL2基因在弥漫性大B细胞淋巴瘤的易位情况及临床意义.方法:收集2015年10月~2019年1月福建省肿瘤医院病理科确诊的弥漫性大B细胞淋巴瘤患者42例,采用免疫组织
This paper deals with delay-dependent robust H-infinity control for uncertain discrete-time systems with interval time-varying delay. By using a new Lyapunov fu
集成学习(Ensemble Learning)是一种机器学习范式,是当前的研究热点之一在多个领域有了很好的应用。但集成学习技术还没有成熟,在研究过程中仍然存在着众多待解决的问题,在应
汽车划痕、顽固污渍,令每个车主苦恼,全新升级后的汽车万能魔术巾只需轻轻一擦即可消失,效果立竿见影,快捷、方便,不伤车漆,神奇到让车主惊叹!该功能实用性极强,车车必备。都
伴随着信息技术的高速发展,电子商务已逐渐成为大型企业生存和发展的基本保证,同时也对中小企业产生了巨大的影响。而数据转换目前已经成为企业电子商务活动非常重要的一部份
今天,报纸为“创新”和“改革”所困扰,但其实他们更需要注重的是提供更好的新闻报道。企业热爱创造力。那些报社总是这么说。一些报纸,比如《芝加哥论坛报》,甚至有个专门负
汉语“对+名词1+动词+的+名词2”(即“p对+np1+vp+的+np2”)结构存在歧义。其歧义分为语义性歧义和结构性歧义两种。歧义的产生是由“对”字本身的多义性和短语中间的np1和vp
H.264/AVC是ITU-TVCEG和ISO/IEC MPEG联合制定的国际视频编解码标准。标准以较高的编码效率和网络友好性受到人们的广泛关注。虽然采用的依然是基于块的混合视频编码框架,但由
企业信息化是提高中小企业竞争力的重要手段,也是企业管理发展的大势所趋。但由于中小企业信息化程度普遍偏低,绝大多数仍处于手工管理的水平,他们迫切需要一种工具和手段,来
目的:探讨肠道微生态治疗肠易激综合征效果.方法:选取肠易激综合征患者58例,分为干预组和对照组.干预组予以双歧杆菌四联活菌片(思连康)3片1.5 g,3次/d,联合马来酸曲美布汀(