论文部分内容阅读
有各种各样的方法去解决关于乳腺癌亚型的基因选择问题。而本文使用的是一种包装法的形式,即在可能选择的特征基因集合空间里寻找出与乳腺癌亚型分类最息息相关的基因集合。这里遇到了两个问题:一、如何评价一个基因集合的好坏。二、以什么样的方式寻找到最好的那个基因集合。对于第一个问题,本文的解决方法是用基因集合中的基因数据训练模型,如果该模型对于乳腺癌亚型分类的预测精度高则表明该模型使用的数据好,也即表明该基因集合更优秀。本文选择的模型是极限学习机,原因在于它是一个新兴的神经网络模型算法,同时它具有简单和极度快速的特点,非常适合大范围、反复的训练。对于第二个问题,其实有许多搜索寻优方法供我们使用,比如随机搜索、穷举以及蚁群算法等。本文使用的是遗传算法。其不错的健壮性和相对简单的操作性是我们选择遗传算法的主要原因。通过遗传算法和极限学习机的结合,我们筛选出了一个包含50个基因的集合,它对于乳腺癌亚型的分类有着最重要的相关性。本文同时也使用了其他特征选择的方法——过滤法。通过对基因集合冗余性的分析,使用SAM方法和基于相似性度量的贪婪算法过滤掉大量冗余基因,减小了搜索空间,免去了许多无用基因对于算法的干扰。我们将这一过程称之为基因预筛选。在这之后,本文针对于问题和数据,给出了适应于求解本文涉及问题的遗传操作和各种参数设置。在问题的研究中,我们遇到了基因数据的不平衡问题,通过分析和研究,我们使用了基于加权的极限学习机,通过代价敏感的方式解决了此类问题。最后我们给出了我们的方法的结果与其他方法的比较。我们首先对比了不同的机器学习算法在我们的最优基因集合上的预测性能,说明了我们筛选出的基因集合是健壮的,其对不同的学习算法都有着超过95%几何平均准确度的预测性能。然后我们对比了以我们的方法筛选出的基因集合与其他方法所得基因集合的预测性能。我们的方法以96.53%的几何平均预测准确率优于其他任何方法,证明了我们的方法是值得研究和扩展的。