论文部分内容阅读
癌症基因表达数据具有高维、小样本的特点,要想从如此复杂的基因表达数据中挖掘出有用的信息,就要对数据进行分析处理。目前已经有很多降维聚类的方法应用到癌症基因表达数据中,从中发现了有用的信息并应用到疾病的治疗和早期诊断中。本文针对癌症基因表达数据的特点,提出一种基于流形学习的聚类分析方法。该方法把流形学习和聚类分析结合到一起,实现了癌症基因表达数据的降维可视化,并得到了很好的聚类结果。首先,本文介绍了有关流形学习和基因聚类的基本理论,分析了几种代表性的流形学习算法,阐述了这几种算法的基本原理和步骤,以及每种算法的优缺点。接着介绍了聚类算法在基因表达数据分析中的应用,并列举出几种常用的基因表达数据聚类算法。其次,本文提出了一种改进距离的多组权局部线性嵌入算法。该算法针对癌症基因表达数据分布不均匀的特点,采用一种新的距离来代替LLE算法中的欧氏距离求解近邻点,并且利用了多组线性无关的权值来构造线性结构,能得到更好的嵌入结果。再次,本文提出了一种基于流形学习的癌症基因表达数据聚类分析方法。通过分析癌症基因表达数据的流形分布特点,把流形学习和聚类的方法相结合,估计数据的本征维数实现可视化,然后按照数据的低维结构进行聚类分析。最后,本文将基于流形学习的癌症基因表达数据聚类分析方法应用到两个癌症数据集中。用matlab进行实验仿真,并对实验的结果进行了分析和评价。