论文部分内容阅读
当今社会随着人们生活水平的提高以及生活习惯、饮食习惯的改变,肿瘤的发病率和死亡率在不断上升,已成为威胁人类健康的最主要疾病。肿瘤早期的诊断和个性化治疗是减少肿瘤患者死亡率的最有效方法。随着生物技术和生物信息的不断发展,基因芯片技术也迅速发展了起来,该技术是一种在单一的试验中能够检测成千上万条基因、甚至整个基因表达水平的最强大的方法。过去的几年里,这种技术已经被广泛应用在如肿瘤分析、新药物发现及不同条件下细胞行为的分析等。由于该技术在生物领域的广泛使用,目前积累了大量的基因表达数据集。怎么样对这些海量的基因表达谱进行分析及挖掘出其中隐藏的信息,是当今生物信息学的一个研究热点。基因表达数据呈现维度高、样本小的特点。基因表达谱聚类是该类数据分析的一个主要任务,其目标是根据样本在基因表达上的相似性自动实现样本数据的聚类,被用于肿瘤(亚型)识别的聚类之中。该方法是一种无监督的学习方法。在基因表达谱分析中一直是一个热点研究问题。然而,如何选择相似性度量标准以及更有效的挖掘数据中的局部信息,并且应用恰当有效的算法来进行聚类分析研究依然是个亟待解决的难题。由于基于非负矩阵分解(Non-negative Matrix Factorization, NMF)聚类方法具有较好的可解释性,本文主要面向肿瘤基因表达数据聚类,研究基于NMF的基因表达谱聚类。本文主要从以下几个方面对其进行研究:1.将图正则化的非负矩阵分解(Graph Regularized Non-negative Matrix Factorization, GNMF)方法引入到肿瘤基因表达谱聚类分析中,该方法是一种近邻保持的非负矩阵分解方法,其采用图的拉普拉斯正则化约束实现了数据在原空间和分解空间的近邻保持。实验结果显示:在面向肿瘤亚型识别应用中,该方法优于已有的非负矩阵分解方法。2.考虑到不同基因与不同肿瘤亚型相关联,我们需要在对样本进行肿瘤亚型识别的同时,发现与特定肿瘤亚型相关的关键基因。因此,我们将双向图正则化的非负矩阵分解(Graph Dual Regularized Non-negative Matrix Factorization, GDNMF)方法引用到肿瘤基因表达谱聚类分析中,该方法同时考虑数据流形的几何结构和特征流形的几何结构,对非负矩阵分解过程中的数据近邻分解保持和特征近邻分解保持进行双向图拉普拉斯正则化约束。实验结果表明:该方法不但能有效地对肿瘤亚型进行聚类,同时还能识别出肿瘤亚型对应的关键基因。