论文部分内容阅读
随着近年来生物高通量技术的发展,基因微阵列数据呈指数增长趋势,如何有效地从这些海量的数据中提取有价值的信息显得尤为重要。在微阵列数据解析时,传统的聚类分析是一个很重要的工具,但它们存在着一定的不足:1)传统的聚类方法只适合实验条件比较少的数据集,因为这些算法是在所有的实验条件下进行基因的聚类;2)传统的聚类方法生成的类之间没有重叠,一个基因最多只能出现在一个聚类结果中,因此难以识别那些参与多个功能的基因。针对这些问题,很多研究者提出了一个改进的聚类思想:双聚类算法。目前已有很多识别bicluster的双聚类算法不断地被研究和应用。Bicluster中的基因在某些实验条件下有着相似的表达模式,甚至是参与相似的功能过程。然而,不同的双聚类算法会生成不同的bicluster,进而会产生不同生物学意义的分析结果。因此,对于这些双聚类算法的比较和检验显得尤为重要。在此研究中,我们选择了五种不同的双聚类算法(BIMAX,FABIA,ISA,QUBIC和SAMBA)和两组维数不同的拟南芥表达数据集(GDS1620和pathway),来比较这些算法的生物学表现。GO(Gene Ontology)注释和PPI(Protein-Protein Interaction)网络被用来检验这些算法生成的bicluster的生物学意义。为了客观、量化地比较各bicluster的意义和不同算法的表现,我们在研究中提出了两种打分方法:加权富集(WE)得分和蛋白质-蛋白质互作(PPI)得分。对于每一种打分方法,通过把所有的bicluster按照得分大小综合到一个统一的排序中,我们可以很直观地分析出这些双聚类算法的表现。WE和PPI这两种打分方法在验证bicluster的生物学意义时都被证明是有效的。两种方法得到的得分之间已被检验到有着显著的正相关,这也印证了这两种方法的一致性。对于这五种双聚类算法的检验和比较显示:(1)对于数据集GDS1620,ISA是五种算法中最有效的一个;对于数据集pathway,BIMAX的表现要优于其他四种算法;(2)ISA和BIMAX这两种算法都具有数据依赖性,前者不太适合基因数小的数据集,后者更适用于实验条件更多的数据集;(3)FAIBA和QUBIC在本研究中表现的都不理想,或许它们更适合具有大量基因和大量实验条件的数据集;(4)SAMBA算法没有明显的数据依赖性,因为它在两个给定的数据集中表现的都不错。这些结果信息能够指导研究者们根据自己的数据集选择合理的算法。