基于集成分类的基因表达谱特征选择方法研究

来源 :东北林业大学 | 被引量 : 0次 | 上传用户:felltwo23
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分子生物学和基因芯片技术的迅速发展产生大量的基因表达谱数据。基因表达谱数据具有高维度、小样本、大量冗余特征的特点,研究学者正在针对此类基因表达谱数据的特点进行大量的研究、分析和挖掘,而被使用最多的方法为机器学习、模式识别、生物统计学等。目前对基因微阵列数据最常用的具体差异分析方式是特征选择,能够解决维数过高带来的分类准确度较差等问题,并且希望通过特征选择方法剔除无关特征,筛选出具有代表性的差异基因,并在保证分类精度的条件下提高学习器的性能。随机森林算法由于具有分类精度高、抗拟合能力强、具有分析小边际效应和复杂相互作用的特征等特点,在生物领域中得到广泛应用。但在对仿真数据实验研究过程中发现,针对不同的数据分布类型,采用随机森林算法基于特征重要性分值选择的特征并不准确。本文提出基于线性分类器、支持向量机、K近邻构建集成分类特征选择模型。主要工作如下:(1)本文提出集成线性分类器、集成支持向量机、集成K近邻的特征选择模型。该模型中每一个基分类器,在样本数量选择中采用bagging的重采样技术,在特征数量中采用随机选择方法,通过计算特征重要性分值实现对每个变量的评价。(2)针对仿真数据集的实验结果证明集成线性分类器特征选择算法的准确率均优于另外三种集成分类特征选择方法,集成K近邻特征选择算法在仿真数据的定性和定量实验结果证明该方法的有效性,而集成支持向量实验结果并不理想。(3)PPR蛋白是陆地植物中最大的蛋白家族之一,在大多数物种中有400多个成员,在植物的生长和发育中起着关键作用。本文针对随机森林特征选择算法在PPR蛋白识别实验中进行定性和定量结果呈现和分析。发现基于随机森林算法计算得出的变量重要性值,再通过高斯混合模型的模型选择聚类提取的特征与数据188D及PAAC全特征的分类准确率一致,说明了针对PPR蛋白数据随机森林算法提取出了关键基因。(4)最后本文基于Python开发一款生物微阵列数据特征选择应用软件,更好的帮助用户切换使用四种算法进行表达谱数据特征选择,并且进一步分析所选特征在指定的集成分类算法下的ROC曲线,投影热图,真正例率,假正例率等关键指标。
其他文献
随着二胎政策的开放和生活质量的提高,孕产妇在妊娠期和产褥期的健康状况愈加受到重视。科学地组织孕产健康领域知识,提供孕产期保健服务,能有效改善妊娠及分娩期病症,保障孕
市场经济初期,国有企业依托于国家的大力支持和市场经济的快速发展,根基逐渐稳固,但近些年随着国内外竞争的加剧和石油资源的日益减少,作为国有垄断企业的石油企业面临着巨大
无线传感器网络(Wireless Sensor Networks,WSN)常被应用于医疗监测、灾害预警、国防军事等各个领域。然而,节点在开放信道中的通信干扰和自身能量限制严重制约了网络吞吐量
信息技术的发展总是随着数据的发散性、开放性和交互性,借此数据的互通和共享也逐步成为现实。但鉴于该特性的客观存在,也间接导致了网络安全问题的出现。在网络安全攻防领域
为了应对能源危机和环境保护的需要,可再生能源的应用已经随处可见。分布式电源可以就地消纳电能,在满足当地供电需求的同时力争与大电网互联互通,以实现电力传输并作为大电
Facebook、Twitter、微博和微信等众多平台的频繁使用,导致了图像数据的来源广和产出高,使得图像信息资源的有效管理和高效检索显得尤为重要。如何从大规模的具有丰富视觉和
近年来,由于饮食习惯改变以及人口老龄化等因素,心血管疾病的发病率呈逐年上升的趋势,已成为我国城乡居民发病率最高的疾病。心血管疾病具有隐匿性、发病急和死亡率高的特点,
配电网在用户与变电系统之间起着至关重要的枢纽作用,其安全稳定地运行能够给国民经济发展、社会稳定以及人民的生活需要提供保障。现阶段飞速发展的信息技术,目前已广泛被应
微机电系统(MEMS)产品依靠其高可靠性、低成本、低功耗、强抗干扰性和适于大批量生产等特点在近年来取得了迅猛发展。基于MEMS惯性器件的捷联惯性导航系统(SINS)与全球定位系
数字图像是一种常见的数字信息媒介。近年来,随着各类智能手机、摄像头等的普及,数字图像生成数量正在逐渐上升。然而,由于数字相机等在拍照时不适当的曝光以及传感器的感光