论文部分内容阅读
分子生物学和基因芯片技术的迅速发展产生大量的基因表达谱数据。基因表达谱数据具有高维度、小样本、大量冗余特征的特点,研究学者正在针对此类基因表达谱数据的特点进行大量的研究、分析和挖掘,而被使用最多的方法为机器学习、模式识别、生物统计学等。目前对基因微阵列数据最常用的具体差异分析方式是特征选择,能够解决维数过高带来的分类准确度较差等问题,并且希望通过特征选择方法剔除无关特征,筛选出具有代表性的差异基因,并在保证分类精度的条件下提高学习器的性能。随机森林算法由于具有分类精度高、抗拟合能力强、具有分析小边际效应和复杂相互作用的特征等特点,在生物领域中得到广泛应用。但在对仿真数据实验研究过程中发现,针对不同的数据分布类型,采用随机森林算法基于特征重要性分值选择的特征并不准确。本文提出基于线性分类器、支持向量机、K近邻构建集成分类特征选择模型。主要工作如下:(1)本文提出集成线性分类器、集成支持向量机、集成K近邻的特征选择模型。该模型中每一个基分类器,在样本数量选择中采用bagging的重采样技术,在特征数量中采用随机选择方法,通过计算特征重要性分值实现对每个变量的评价。(2)针对仿真数据集的实验结果证明集成线性分类器特征选择算法的准确率均优于另外三种集成分类特征选择方法,集成K近邻特征选择算法在仿真数据的定性和定量实验结果证明该方法的有效性,而集成支持向量实验结果并不理想。(3)PPR蛋白是陆地植物中最大的蛋白家族之一,在大多数物种中有400多个成员,在植物的生长和发育中起着关键作用。本文针对随机森林特征选择算法在PPR蛋白识别实验中进行定性和定量结果呈现和分析。发现基于随机森林算法计算得出的变量重要性值,再通过高斯混合模型的模型选择聚类提取的特征与数据188D及PAAC全特征的分类准确率一致,说明了针对PPR蛋白数据随机森林算法提取出了关键基因。(4)最后本文基于Python开发一款生物微阵列数据特征选择应用软件,更好的帮助用户切换使用四种算法进行表达谱数据特征选择,并且进一步分析所选特征在指定的集成分类算法下的ROC曲线,投影热图,真正例率,假正例率等关键指标。