论文部分内容阅读
随着机器学习技术的快速发展,生物信息学研究的不断深入,利用基因表达序列中的数据对癌症进行亚型分类研究,已成为当前的研究热点之一。在分子生物学水平上,利用基因表达数据的分析从而对癌症早期诊断提供辅导决策,这对于癌症的正确、及时诊断,有着积极深远的意义。然而,基因表达数据有着其数据特点,即:高维度、小样本、分布不平衡等,这也对癌症亚型的分类提出了挑战。由于在基因表达数据中,存在着大量的冗余基因和噪声数据。因此,面对着海量的基因表达数据,如何对其进行特征选择,选出最具代表性的特征基因子集,是研究学者们的研究重点之一。此外,学者们还致力于寻找有效的分类方法。这两方面的研究,目的都在于提高癌症亚型的分类精度,为大数据医疗提供更精确的决策支持。本文主要基于样本数据的特点,通过学习和研究,设计快速、有效的特征选择方法。通过特征选择后的样本数据,进行样本分类预测研究。在分类阶段,研究极限学习机算法的使用和扩展,目的在于提高分类器的性能效果。本文主要完成了以下的工作:(1)由于基因的维数过高,本文提出了多维互信息(MMI)特征选择方法。多维互信息特征选择方法的算法原理在于筛选出最能表达癌症分类的基因子集。为了评价多维互信息方法的性能,选择白血病(Leukemia)和结肠癌(Colon)的典型数据集进行了案例研究。并将MMI特征选择方法与ReliefF方法进行对比,结果发现,MMI方法具有更高的分类准确率,这证明了本文提出的特征选择方法的有效性。(2)针对基因表达数据中存在的样本不平衡问题,本文首次将提升方法应用在癌症分类研究领域中。通过将Adaboost方法与极限学习机方法相结合,得到了强分类器Adaboost-ELM。利用白血病数据进行了分类实验,结果表明,Adaboost-ELM分类器在白血病数据集中有较良好的分类效果,减轻了样本不平衡对分类效果的影响。