论文部分内容阅读
真核基因的转录调控往往需要多个转录因子相互作用。反应到DNA序列上,即是多个顺式作用元件(亦称模体,motif)组成一个模块共同调控基因的转录,这种现象称为组合调控(combinatorial control)。组合调控模块中可以只包含两个顺式元件(亦称模体对),也可能包含两个以上的模体。目前对组合调控的计算分析主要集中在基因的上游启动子区域,而许多实验结果表明内含子中也含有转录调控元件。为了更好地了解真核基因组合转录调控的机制和探索内含子参与转录调控的方式,本文主要就人基因上游至第一内含子序列中的组合转录调控模体对进行统计分析。论文主要研究内容和结果概括如下:
1.首先以4863个人基因的内含子序列为数据源,通过对内含子长度和位置、碱基使用偏好、CpG岛出现频率以及TATA box、CAATbox和GC box的分布等可能与转录调控有关的序列结构进行统计分析发现:第一内含子距离上游较近,并且相对其它内含子更长;其中的C+G、CG双碱基含量以及CpG岛出现频率明显高于其它内含子;重复元件在第一内含子靠近5端即CpG岛密集区域的密度相对稀疏;第一内含子中的GC box和CAAT box出现频率高于其它任何位置的内含子,TATA box的出现频率也相对较高。这些结果支持了第一内含子中含有转录调控元件的观点,为下一步确定启动子序列范围提供了参考。
2.为了使预测的组合转录调控模体对更可靠,本文通过整合基于频率分析、随机打乱和Markov链的模体预测方法,并结合超几何分布和曼.惠特尼U检验,提出一种新的、具有普适性的模体对识别算法。利用酵母核糖体蛋白基因数据评价该算法,发现整合多种方法得到的新算法的模体对识别能力优于单一方法,奠定了本研究的方法论基础。
3.将人基因启动子序列定义为上游1000bp至第一内含子区域,利用提出的新算法分别探测了人管家(housekeeping,HK)基因和组织特异性(tissue-specific,TSP)基因中潜在的组合转录调控模体对,其中大部分模体对与已知具有相互作用的转录因子对匹配。例如,实验表明SP1是CpG岛的关键结合因子,并且HK基因中的CpG岛大部分未甲基化,本文在HK基因启动子序列中探测到了与SP1有关的几个已知具有相互作用的因子对NF1:SP1.P53:SP1.AP1:SP1.STAT1:SP1和NF-KAPPAB:SP1的结合位点。碱基含量分析表明,HK基因中的模体对主要富含C、G,TSP基因中则有大部分模体对富含A、T,这提示调控HK基因的转录因子可能易与CG-rich模体结合,而调控TSP基因转录的因子大部分为易与AT-rich模体结合的因子。将启动子序列分成上游、外显子和内含子3个区域,模体对可以在6个区域出现,对模体对在各区域出现的偏好进行考察,发现HK基因中分别有80%和90%的模体对偏好出现“上游-上游”和“上游-内含子”区域,偏好其它区域的模体对均不足5%;TSP基因中模体对区域偏好相对复杂,但除血液和肝脏组织外,其它组织中的模体对在“内含子-内含子”区域都具有偏好性,而在“上游-内含子”和“外显子-内含子”区域偏好的模体对较少。这提示HK基因中的内含子可能与基因上游区域存在转录协同作用,大部分TSP基因的内含子则可以单独行使组合转录调控功能,而不一定要与上游相互作用。利用统计方法分析模体对在序列中的距离和方向偏好,结果发现:HK基因中有60%左右的模体对距离小于200bp:除胎盘、肌层和外阴组织外,其它组织中有超过一半的模体对距离小于500bp:HK基因和大部分TSP基因中都有约90%的模体对具有方向偏好。以上结果表明人基因启动子序列中的组合转录调控模体对在碱基组成、区域、距离和方向上具有一定特征,并且大部分特征在人HK基因和TSP基因中明显不同。我们推测这些差异可能和基因的转录调控有关。特别地,模体对的出现区域偏好提示了内含子在HK基因和TSP基因中参与转录调控的可能方式,这个结果尚未见早期报道。