论文部分内容阅读
近年来,肿瘤疾病已经严重危害到人类的生命健康,与此同时生物信息技术也在快速发展,利用基因表达谱数据在基因水平上研究肿瘤的发生发展机理,有助于肿瘤诊断和个性化治疗。当前,基于基因表达谱的肿瘤分类方法研究多数集中在两个方面:(1)由于基因表达谱数据具有高维小样本的显著特性,而且其中存在大量的冗余基因及噪声,如何从高维数据中提取出致病基因是一个关键任务;(2)目前基因表达谱数据分析的准确度还没有达到应用水平,肿瘤的最终诊断还是依赖于医学专家。因此寻找合适的分类算法并提高其性能是目前研究的重中之重。针对这两个方面,本文展开了如下工作:(1)完成了对超高维基因表达谱数据的特征基因选择工作,一共研究了两类特征选择方法,分别是一般特征选择方法和解决类不平衡的特征选择方法。在一般特征选择方法中实现了3种方法,并进行实验对比发现SVM-RFE能够选择出最优的特征子集。于是本文提出了一种基于上采样的SVM-RFE方法,采用简单的重采样技术来解决类不平衡问题,并与另一种解决类不平衡的FAST方法进行实验比较,本文方法克服了FAST中不稳定的缺点,而且得到了更好的总体分类正确率和小类别样本的识别率。(2)研究并实现了5种常用分类方法,对5种分类方法进行对比分析,实验发现在4个基因表达谱数据集上支持向量机都得到了最好的分类结果。(3)利用Bagging和Boosting方法对SVM进行集成学习,由于SVM是一种相对稳定的分类器,集成结果不理想。通过结合参数扰动增大成员分类器之间的差异性,能够提高SVM的总体分类正确率以及小类别样本的识别率。(4)研究了具有代价敏感性质的肿瘤分类问题,总结归纳了解决代价敏感问题的多种策略,并实现了两种不改变原有分类算法的代价敏感学习算法:MetaCost和AdaCost,一般MetaCost和AdaCost都是采用C4.5作为基分类器,通过实验对比发现AdaCost在高代价样本错误率上得到了较好的结果。由于SVM分类器在基因表达谱数据上取得了很高的分类精度,我们考虑将SVM分类器应用到MetaCost和AdaCost中,新的MetaCost和AdaCost能够大大降低高代价样本错误率和错误总代价。