论文部分内容阅读
随着高通量生物芯片实验技术的出现,产生了大量的生物芯片数据。通过对不同芯片实验数据的分析,可以得到一些不同类型的分子网络,比如:蛋白质相互作用网络、基因调控网络、代谢网络等。研究表明,网络都具有模块性,而生物的功能往往也都是通过这些模块来得以实现。因此,有必要对模块识别与分析的相关问题进行研究。本文对基因模块的识别与分析的相关问题进行了深入研究,其主要研究内容和创新点包括以下几个方面:1、聚类算法研究。虽然目前很多聚类算法已经应用于基因模块的识别中,但这些聚类算法还存在着一些问题。其中一个主要问题是,大多数聚类算法只能识别对象间正相关的模式,不能识别对象间负相关或其它复杂相关模式。因为线性流形可以看成是一种正相关和负相关模式的一种泛化,还可以表示其它更为复杂的相关模式,所以本文研究并提出了一种基于线流形搜索和融合的线性流形聚类算法(LSAFCLUS)。它的基本思想是搜索数据集中蕴含的线流形类,然后将其中某些线流形类融合以便构造高维流形类。该算法克服了很多传统算法需要指定聚类数的缺点,并且克服了噪声和边界点的影响,适用于高维有噪声数据的聚类。对仿真和真实数据,LSAFCLUS方法在聚类准确性和计算时间两个方面都要优于其它聚类算法。将该算法应用到两个不同的癌基因表达数据集中,得到了很多具有显著功能意义的基因模块。通过对这些模块的进一步分析得到了一些非常有指导意义的结论。比如:基因C12orf35和FAM26F可能是新的癌症相关基因。2、相似性度量研究。基因模块中的基因往往参与相同的生物过程或具有相似的生物功能。基于此,模块中这些基因的生物学数据间则往往在很大程度上存在着相似性。因此,需要选择合适的相似性度量来刻画这些基因生物学数据间的相似性。本文对四种相似性(距离)度量进行了比较分析,研究了它们在基因表达数据中的应用,并分析了它们在基因表达数据应用中的优缺点。在对这些相似性度量比较分析的基础上,构建了两种新的相似性度量。在实际数据上,比较了构建的和已有的相似性度量。所得结果证实所设计的相似性度量,比其它相似性度量更适合用于刻画基因表达数据间的相似性。此外,提出了多种生物学数据的融合框架,并通过该框架构造了融合的度量方式。在不同基因表达数据集中的测试表明,融合多种生物学知识的度量方式,更有利于得到具有生物学意义的结果。3、基于Chip-chip数据的转录调控模块识别方法的研究。Chip-chip数据反映了特定的转录因子结合其它基因启动子的情况。本文结合酵母基因表达数据和Chip-chip数据,提出了一种转录调控模块识别算法。该算法通过采用不同的p值阈值,分别得到核心集和粗糙集,然后对核心集和粗糙集进行判别,最后对基因进行扩展得到基因转录调控模块。将该算法运用到两个酵母基因表达数据中,得到了一些具有显著生物学意义的基因转录调控模块。与其它算法相比,该算法不仅可以识别含有较多基因的转录调控模块,而且可以识别一些其它算法不能识别的基因转录调控模块。识别得到的基因转录调控模块有着不同的生物学功能,并且有助于进一步理解酵母的转录调控机制。4、几种简单motif的建模与分析。对几种简单motif进行了建模并从不同角度进行了分析:详细描述了单输入motif模型的构建过程,并通过分析得到了其在不同情况下的近似模型;构建了前馈motif的模型,并讨论了不同前馈motif类型的动态性能;构建了自反馈motif的模型,并对其平衡点的分布及稳定性进行了分析。5、基于模块层次的调控网络研究。(1)、提出了基于转录调控模块的基因调控网络构建方法基于转录调控模块的基因调控网络构建方法主要分为向上建立基于模块的调控网络和向下分析模块motif的构成两个方面。通过向上基于模块的横向和纵向扩展可以得到基因调控网络的全局概略图,再通过向下分析模块的motif构成可以得到细节清晰的基因调控网络。(2)、提出了一种基于混沌蚁群优化的主微分分析方法针对现有微分方程参数估计方法存在的一些问题,提出了一种基于混沌蚁群优化的主微分分析的微分方程参数估计方法。该方法不需要采用数值方法来近似求解微分方程,且可以克服参数估计陷入局部极小值的问题。(3)、构建了酵母基因调控网络及其模型,并对模型进行了分析采用基于转录调控模块的基因调控网络构建方法构建了酵母的基因调控网络,并采用基于混沌蚁群优化的主微分分析方法估计了网络微分方程模型的参数,得到了酵母基因调控网络相应的微分方程模型。通过微分方程模型对基因调控网络的性能进行了一系列的分析,加深了对酵母转录调控机制的理解,并对基因调控网络的特性有了更深的认识。