论文部分内容阅读
真核基因的转录调控是通过转录因子与基因上游特定DNA序列的结合来实现的。这些转录调控序列也称为顺式作用元件(cis-element),是一类长约为5-25bp、主要分布在基因启动子5’上游的短序列,它们是基因调控网络的重要组成部分。因此,基因组转录调控信息的研究首先应从这些调控元件的分析与识别开始。
本文利用生物信息学手段研究了转录调控序列在四个真核基因组的编码区和非编码区的分布规律,发现多数转录调控序列在非编码的基因间区和内含子区富集,并探讨了这一现象的生物学意义和应用前景。
我们发展了一种统计模型,定义S<,nc>为某一调控序列在非编码区的富集系数,S<,nc>大于1表明该序列在非编码区富集;S<,nc>越大表明该序列的富集程度越高。S<,nc>通过比较调控序列在基因组非编码区的实际分布频率与背景频率求得,本文中的背景频率取自该序列在全基因组的分布频率或该序列在外显子区域的分布频率。
计算表明71%的酵母转录调控序列在基因间区富集,作为对照的随机序列只有42%在基因间区富集。转录调控序列在酵母基因组600bp基因上游区域的富集分布现象也很明显。而且在S.pombe和EBV病毒基因组中也观察到了类似的现象。在果蝇基因组中,当我们以全基因组的分布频率为背景频率时,转录调控序列在基因间区和内含子区域并不表现出明显的富集,但是当我们以外显子区域的分布频率为背景频率时,超过70%的转录调控序列在基因间区和内含子区域富集。这一现象表明在基因组的基因间区和内含子区域含有较多的转录调控序列,而调控序列在编码区的分布频率较低。
发现有一部分的酵母调控序列的S<,nc><1,对于这些序列能找到表示同一种转录因子的S<,nc>>1的序列,因此S<,nc><1的序列可能是不正确的调控序列。调控序列在非编码区富集的特征可以用来判断已知调控序列的正确性,或者用来预测未知的调控序列。
研究了距离小于200bp的由两个同源调控序列组成的调控序列簇在酵母基因组中的分布规律。采用与计算单个位点S<,nc>类似的算法,发现这样的调控序列簇在非编码区高度富集,而且调控序列簇的富集系数S<,nc>(pair)高于单个位点的S<,nc>,这与多位点协同转录调控的生化模型相符合。进一步分析了双位点之间距离对富集的影响,在200,100,50和20bp的距离上都能观察到明显的富集,而且50bp和20bp的距离上能得到较大的富集系数。还尝试了通过计算异源调控序列簇的富集来预测组合调控的方法,但是没有得到理想的结果。