论文部分内容阅读
肿瘤是严重威胁人类生命健康的主要疾病之一,其发生发展是多个基因逐步改变的多阶段过程,尽早确诊能够有效防止肿瘤进一步恶化,提高患者的生存机率。基因芯片技术能够检测细胞中大量基因的表达水平,对肿瘤基因表达谱数据进行正确分类将有助于肿瘤的早期确诊和治疗。肿瘤基因表达谱数据通常具有高维度、小样本以及类别不平衡的特点,对其进行有效的特征提取并构建考虑类别不平衡的分类模型对提高肿瘤分类准确率十分重要。本文主要从以下两个方面开展研究:(1)针对数据的高维小样本特点,采用不同的流形学习方法提取高维数据的局部和全局特征,获取数据中潜在的低维流形,达到去除冗余和数据降维的目的;并构建高斯过程分类器对得到的低维特征进行分类;实验结果表明,等距特征映射算法和基于监督的局部线性嵌入算法得到的低维流形能够更加完整地保留数据结构特征,结合流形学习的高斯过程分类方法有效地提高了肿瘤基因表达数据的分类准确率。(2)针对数据的类别不平衡特点,通过对似然函数赋予与样本数量相关的权重来平衡各类样本的重要性,以增加少数类样本的分类决策权。实验结果表明,该方法有效保留了数据的原始分布特性,一定程度上解决了由于类别不平衡导致的分类结构倾向多数类的问题,在总体分类性能上优于传统算法,在算法时效性上优于上采样技术等平衡不同类别样本数量的方法。最后,针对SRBCT、ALL-AML-3和Brain肿瘤基因表达谱数据集,通过基于似然函数加权的高斯过程多分类方法实现肿瘤数据分类,采用总体分类准确率和单类最低分类准确率两个指标对该方法进行评价,实验结果表明本文方法相比于其他多分类方法能够得到更好的分类效果,同时有效解决了数据中存在的类别不平衡问题。