论文部分内容阅读
近年来,随着DNA微阵列以及核苷酸芯片等高通量检测技术的发展,现代科技已经可以从全基因组水平定量地检测基因转录产物——mRNA,从而导致产生的基因表达数据就呈现爆炸性增长的态势。怎么对基因表达数据进行有效地剖析,并从中挖掘出对生物学有意义、有用的信息已经是后基因组时代的研究热点。基因表达数据分析一个主要的任务就是对基因按表达水平进行分类,或者对实验条件分类,从而得到对生物表达水平有意义的基因或实验条件。基于基因芯片技术产生大量的基因表达数据,聚类分析[1,2]便应运而生,被广泛应用于解决上述问题。作为聚类分析研究的一个新分支,双聚类为我们打开了一个新的研究视角。双聚类(bicluster)分析[3-5]是数据挖掘中的热点问题,在基因表达数据研究中有着至关重要的应用[3,6]。双聚类分析就是从数据矩阵中寻找一些子矩阵,使得这些子矩阵元素之间存在着一定的一致性。双聚类分析是一种重要的基因表达数据处理手段,但是,双聚类必须同时对矩阵的行和列进行聚类,研究已经证明,这是一个NP(nondeterministic polynomial)-Hard问题[7]。除了CC算法(Cheng and Church’s algorithm)[6]之外,公认的成熟算法非常少。本文基于文献[8]提出一种基于合并双向聚类模型的算法,该方法通过对基因和条件同时进行聚类,找出一组在不同条件下具有相同变化趋势的基因。本文人体脑样本数据集进行了实际的测试,并且将其与使用原来经典算法的实验效果进行了对比,实验结果表明,改进之后的算法与原算法相比,在消耗的时间增加不多的情况下,其聚类结果的质量有了比较大的提高,挖掘出的表达模式也相对而言比较好,对后续的研究也更有价值。