论文部分内容阅读
基因的表达调控体现在许多层面上,主要是转录水平的调控,阐明基因转录起始调控机制对于后基因组时代的基因组功能注释起到非常关键的作用。基因转录起始是由多种启动子识别因子共同作用的结果,基因组内部的启动子序列作为基因表达所必需的重要序列信号和基因转录水平上最重要的一种调控元件,对它们的研究是研究转录调控、下游靶基因以及信号通路的必不可少的手段。核心启动子的多态性如何与多种启动子识别因子相匹配己成为Pol-Ⅱ基因转录启动遇到的新难题。不同的基因可能存在完全不同的表达调控机制,使得不同物种启动子内部调控元件的组成存在较大的差异。GC碱基特征是影响启动子特性及下游相关基因表达非常重要的因素,功能元件的位置调控导致的基因功能变化在转录调控中也越来越显著。另外,核心启动子元件在统计上保守性不强,使得对基因启动子及其转录起始点(TSS)的识别精度远低于对蛋白质编码区域的识别。本文的工作主要是针对基因启动子功能区域的GC-Skew/Profile、位点保守性、DNA几何结构、调控模体的位置调控等相关特征和构建基于多特征融合的启动子识别模型两方面展开研究,主要研究成果如下:一、通过比较分析四类模式物种基因启动子在碱基组成上的偏好,证实了人类启动子序列典型的GC偏好特征,以及不同生物基因启动子具有独特的GC位点组成偏好和位点碱基偏差;发现人类启动子越接近TSS处位点保守性越强,果蝇启动子则在距离TSS位点-80bp的上游区域存在较显著位点保守性,而植物启动子除TATA-box和转录起始子(Inr)定位区域保守性较强外,其它区域无明显保守性。通过比较DNA空间几何结构柔性,发现了不同生物类型转录起始区域的独特DNA物理结构特异性和各向异性的特征规律,为实际的蛋白质-DNA相互作用过程提供一定的三维柔性结构参数。二、对启动子内部功能模体及定位分布的统计分析,证实了功能模体的位置调控与序列位点保守性规律一致,且不同物种间存在较大差异。找到了人类基因组启动子区域典型的-40bp元件—GGAAG调控模体,搜索出了集中出现在果蝇TSS上游-80bp以外区域的TA重复序列元件,并通过GO基因注释对调控模体的生物学意义进行了深入探究。三、着重比较了不同生物基因启动子内部的’TATA-box和TC-元件位点保守性和定位分布,发现TATA-box在果蝇启动子的197bp、-195bp、-184bp和-165bp等位点存在较大定位。TC-元件代表一类新的参与基因表达调控的功能模体,TC-重复元件大量存在于多类物种的TATA-box缺失的基因启动子中,偏好出现在一些环境特异性组织的启动子序列中,这些基因的转录只发生在某些特定器官或组织中。证实了真核基因启动子TATA-box末端富含嘌呤碱基“AAAA”的尾端,原核生物基因TATA-box模体除TATAAT外,尾端富含嘧啶碱基“GCGC”。通过比较不同σ类型的大肠杆菌启动子调控模体位置分布,找到了σ54启动子TSS上游的-24bp位点的CTGGCA模体和σ28启动子特有的TG[CA]CGATAA元件。四、通过对大肠杆菌启动子、编码区和基因间区域的DNA几何特征图谱的比较和分析,证明基于序列独立性的DNA几何柔性结构特征能够很好的反映原核生物转录起始区域的结构特异性。针对启动子识别中两个最关键的问题—特征提取和算法筛选,我们采用特征参数二次整合方法,构建了基于序列信号、组分及DNA几何结构的植物TATA和TATA-Less启动子识别模型,达到了目前国际最好预测效果。利用最新发表的组蛋白修饰信息,整合表观遗传标记特征和DNA序列信息构建了人类基因启动子识别算法,验证了组蛋白修饰对于启动子识别的重要性,讨论了染色质表观标记信息与信号、组分及DNA结构特征对于启动子预测精度的影响。