论文部分内容阅读
转录因子OCT4,SOX2和NANOG及其靶基因在胚胎干细胞(Embryonic Stem Cells,ESCs)自我更新和分化过程中发挥了十分重要的作用,被称为胚胎干细胞多能性维持核心转录因子(Transcription Factors,TFs)。然而,这些转录因子对靶基因的调控特征及规律尚不清楚,其靶基因的缺失和不足也在一定程度上限制了干细胞自我更新及分化机理的探索。在调控特征方面,这些转录因子之间是否存在交互以及协同调控,仍然不清楚。此外,在胚胎干细胞中特异表达的microRNA(miRNA),也在其多能性维持和分化方面起到了重要的作用。因此,探索转录前后的调控因子如何协同地发挥作用,将有助于我们探究胚胎干细胞多能性维持分子机理。在靶基因的预测、筛选方面,由于社会伦理等方面的原因,在人类中挖掘这些核心转录因子的靶基因仍然存在较多困难,导致目前已知的靶基因数量相比于小鼠缺失较多,影响下游研究进程。为此,本研究利用系统生物学方法,探索胚胎干细胞核心转录因子靶基因的调控特征,随后根据机器学习方法,利用基因组的序列特征及表观调控特征对其进行靶基因预测筛选,提取不同细胞类型的特征性分子网络,并基于此计算细胞间相似性,为下游分子细胞实验验证提供理论支撑。主要研究结果如下:(1)整合BioGRID、HPRD蛋白互作网络和miRNA调控网络miRecords、TarBase,对核心转录因子的靶基因在网络中的性质进行分析。发现在人类和小鼠的蛋白互作网络中,核心转录因子和miRNA共同调控的基因同核心转录因子单独调控的靶基因在网络中心属性方面显著差异,并且核心转录因子和miRNA共同调控的靶基因与其它基因之间的中心性差距更加明显,反映出它们之间存在着协同调控作用,从而增强靶基因的功能,实现它们共同维护ESCs多潜能性的目标。(2)构建非阴性集依赖的核心转录因子靶基因预测模型:标签标记算法(LMA)。利用核心转录因子靶基因的组蛋白修饰和转录因子调控序列特征,在人类全基因组范围内分别预测得到核心转录因子OCT4、SOX2和NANOG的靶基因4796,3166和4384个,并给出可靠性分值,同现有的非阴性集依赖的M-C模型比较发现LMA模型具有较高的稳定性和预测阳性集合准确率,为进一步的科学研究提供可靠的数据基础。对LMA预测的基因集合分析发现其具有很强的模块性和基因功能相似性,进一步验证了核心转录因子预测靶基因的准确性。(3)整合人类所有细胞类型和细胞内分子调控网络,构建了细胞相似性计算和细胞类型预测软件CellSim。Cell Sim可以对人类细胞类型的相似性进行计算,并且提供了原始细胞和靶细胞共享的详细转录因子和基因调控关系和调控可靠性分值,为细胞重编程的转录因子选择提供方便。同时CellSim可以根据特异基因集合,计算与其匹配的组织细胞。为方便用户使用,本软件的计算结果可供下载使用。