论文部分内容阅读
基因表达调控是后基因时代研究的一个重点。作为基因转录调控信息的载体,转录调控元件在基因转录过程中起着重要的作用。基因调控物质即转录因子通过与调控元件的相互作用,调节基因的转录,控制基因的表达。因此,分析和识别转录调控元件以及了解它们的功能是理解和解释整个基因组行为的重要步骤。本文主要从基因组序列出发研究调控信息的发现、作用和在基因组中各个区域的分布情况。
在调控元件的识别过程中,我们选择了位置权重矩阵作为表示调控元件特异性的模型对基因组序列进行搜索,并从SCPD下载实验数据对选择的搜索算法进行验证,发现算法对转录因子结合位点具有很高的识别效率,所以该方法可以用于开发搜索系统和进行下一步研究。然后对搜索结果进行统计研究,提出了复合元件之间距离统计的方法,对Compel数据库中的(COUP-TF,ER)和(YY1,SRF)等组合元件进行统计分析,发现该方法确实具有一定的统计意义:在研究两个调控元件是否为组合元件时,如果两者之间距离在较小范围内统计频度较高的话,我们可以初步判定这两个调控元件可能为组合元件。
在分析调控元件在基因组各个区域中的分布丰度分析时,我们首先分析模式生物酵母基因组的16条染色体,发现酵母基因组的基因上游区域相对了整条染色体来说结合位点分布丰度较高,这与我们一般认为调控元件一般分布在基因上游区域符合;而对其余区域结合位点的分布含量分析表明,虽然其余的非编码区域或者编码区域可能也存在着一定量的结合位点,但是相对于整条序列来说分布丰度却不像基因上游区域那样突出。
对于人类基因组两条染色体(21和22号)结合位点各个区域分布丰度的分析都发现:基因上游区域的结合位点含量相对却不是很高,而基因间区,内含子区也含有较多的结合位点,因此我们猜测,是不是人类基因组存在着更为复杂的调控体系,起调控作用的元件不仅仅分布在基因的启动子区,还较多的分布在其他区域(基因间区、内含子区),调控网络的范围是不是会更广泛?对两条染色体编码区域的分析中发现,相对于整条序列结合位点的含量都很低,而其他非编码区域相对于编码区域来说结合位点分布丰度都较高。
最后,我们结合实验室的基因组序列特征数据库和转录调控信息数据库开发了转录因子结合位点的web搜索系统,并实现了识别结果的可视化显示。该系统也集合了复合元件的距离统计方法。