论文部分内容阅读
随着生物信息学的不断发展,大量的基因表达数据被获取,特别是肿瘤的基因表达数据。用机器学习的方法对这些数据进行分析并获得分类特征基因,有助于肿瘤早期诊断,近年来一直是生物信息学研究的热点。由于肿瘤基因表达数据的维数一般是几千甚至上万,它会影响机器学习算法的效率,甚至降低学习的效果,这就是所谓的“维数灾难”,特征选择方法可以从成千上万个基因中选择出带有较多分类信息的基因,这不但改善了学习的效率,提高了学习的精度,而且有重要的生物学意义,可以帮助人们寻找肿瘤的致病基因,从基因表达的角度解释肿瘤的成因。近年来,有学者提出了一种流形学习算法的一般性框架,并由此提出了边缘费希尔分析算法(Marginal Fisher Analysis,MFA),在分类研究中取得了良好效果。本文主要提出了一种基于流形学习的特征选择算法:MFA score+算法,并将其应用在肿瘤基因表达数据。实验选用了9种公开的肿瘤数据集,在前面8种数据集上验证改进算法的有效性,在最后一个数据集(急性白血病数据集)上进行了特征基因子集的生物意义分析。 本文取得的主要研究成果如下: 1.将MFA score算法应用于肿瘤基因表达数据。首先详细介绍了MFA特征提取算法,并且指出其适用于任何分布的训练样本,然后从它出发改造成了一种对特征进行打分的特征选择算法:MFA score。接下来简要介绍了公开的8种肿瘤基因表达数据、用于对比实验的两种特征选择算法和作为分类器的支持向量机,最后给出了实验结果。从实验结果可以看出MFA score算法明显优于Fisher score和T-test算法,它可以被用于特征基因的选取任务。 2.基于MFA score算法,提出了一种结合排除冗余的MFA score+算法。首先指出冗余基因在肿瘤基因表达数据中大量存在这一现象,说明了单特征评价算法会存在冗余基因。然后就这一问题提出了基于Pearson相关系数的排除冗余方法,并与MFA score算法结合成MFA score+算法,给出了算法的流程图。最后通过比较实验说明了此算法的分类效果优于MFA score等算法。 3.讨论了特征选择算法用于肿瘤基因表达数据分析的生物学意义,进一步说明了MFA score+算法的有效性。将MFA score+算法用于人类急性白血病的数据集。首先,介绍了最早利用机器学习方法处理的急性白血病数据集和Golub的“信噪比”方法。然后,用MFA score+算法对数据进行特征选择,结果选出了12个特征基因,分类准确率达到了100%。最后,对选出的基因子集做了生物意义分析,通过比对发现12个基因中有10个在Golub选出的50个特征基因中,其中的M23197基因在白血病免疫分型中起着重要作用,是当前用于白血病亚型分型的重要免疫标记,这表明了MFA score+算法的应用价值。