论文部分内容阅读
利用基因芯片技术能够做到同时对多到数以万计的基因进行并行分析,随着该技术越来越成熟并得到广泛应用,现在已经有越来越多的基因表达数据测定出来,亟需处理,借助于计算机工具以及机器学习方法对这些大量数据进行分析是现在一个很重要的研究领域。其中,对基因表达数据的分类研究是该领域的一个热点,通过分类能够帮助研究者发现正常细胞组织与疾病组织之间基因的本质差异,识别致病基因,对基因型疾病的临床诊断和治疗具有重要的意义。 基因表达数据具有“样本少、维数高、分布不平衡”的特点,这给分类带来了很多的困难和挑战。目前解决此问题的一个有效方法是在分类前对高维数据进行特征提取和降维,以达到去除与分类无关的基因、降低计算复杂度、提高分类准确率的目的。 本文首先分别用PCA、ReliefF、LLE和Isomap几种降维算法对原始数据进行降维,然后对降维后的基因表达数据用朴素贝叶斯分类算法进行分类,并通过分类结果比较了不同降维方法的性能。然后在此基础上,本文提出了RLLE(relevant component based LLE)降维算法,把ReliefF特征提取与LLE降维相结合,试验结果表明,RLLE算法的降维效果要好于传统的几种降维方法。 Alex Rodriguez,Alessandro Laio提出的“基于快速寻找密度峰值的聚类算法”是一种很简洁且聚类效果很好的聚类算法,但是该算法对“样本少,维数高”的基因表达数据的聚类效果并不是很好,不能分离出正确数目的类中心。本文采用mRMR特征提取算法提取原始数据中排名靠前的特征达到降维目的,然后对降维后的基因表达数据重新进行聚类,能够较准确地分离出正确数目的类中心。在此基础上,将该聚类算法发展为有监督特征提取的分类算法:用训练集进行特征提取,再将训练集和测试集合并并聚类,最后根据聚类结果判定测试样本的类别。分类结果表明,基于mRMR-快速聚类分类算法的分类准确率要好于k近邻分类和朴素贝叶斯分类。