论文部分内容阅读
癌症的发病率高、死亡率高,患者的生存期短,给患者的本人、家人甚至整个社会都带来了严重的不良影响。因此肿瘤的预防和治疗是全世界生命科学研究者的研究焦点。通过样本的聚类,不仅可以根据已得到的肿瘤聚类样本对未知的聚类样本进行研究和预测,帮助医生进行肿瘤的诊断和治疗,还可以帮助找出相关的驱动基因或功能表达相似基因,进而可以发掘基因之间的调控关系,并找出有研究价值的基因,从中选出药靶、诊断靶。基因表达数据的聚类分析研究对肿瘤的预防和治疗研究有着很重要的医学意义。由于基因表达数据的高维特性,数据往往变得稀疏,样本之间的距离差距不再明显,而且冗余特征也会随之增多,导致一般的聚类算法的有效性大大降低。通过对基因表达数据进行聚类分析以提高诊断肿瘤的准确度,成为了生物信息学和医学领域的热点研究。本文主要围绕肿瘤基因表达数据的谱聚类问题进行研究,具体研究工作包括:(1)基于稀疏表示的谱聚类算法(Sparse Representation based Spectral Clustering,SRSC)将每个高维样本映射到一个低维的系数向量子空间,并利用稀疏表示系数向量构造相似度矩阵从而进行谱聚类。由于该方法存在效率低等缺点,在高维的基因表达数据聚类中存在很大的不足,针对这个问题,提出了基于协同表示的谱聚类算法(Collaborative Representation based Spectral Clustering,CRSC):首先通过协同表示对高维的基因表达数据进行降维分析,有效的保证了信息的完整性;然后采用Cosine距离对降维后的数据构建相似度矩阵;最后采用谱聚类算法进行对相似度矩阵进行聚类分析。通过多种评价标准的对比,表明该算法在时间复杂度和聚类准确率上都有较强的鲁棒性。(2)当样本数量很大,SRSC算法在求解稀疏表示系数的过程非常耗时,针对这个问题,结合传统的主成分分析优势,提出了基于主成分分析的谱聚类算法(Principal Component Analysis based Spectral Clustering,PCASC):首先使用主成分分析对基因表达数据进行降维分析;然后采用Cosine距离对降维后的数据构建相似度矩阵;最后采用谱聚类算法进行对相似度矩阵进行聚类分析。通过实验对比分析,该算法在准确率和运行速率上都优于SRSC,更适用于分析大规模的基因表达谱数据。