论文部分内容阅读
真核生物的基因组DNA能够与组蛋白形成核小体结构,这些核小体结构在基因组上线形排列,并进一步折叠成更加紧密和复杂的高级结构。由于核小体结构中的DNA缠绕在组蛋白八聚体上,可能影响这些DNA与细胞内的其他蛋白相互作用,从而影响到DNA复制、转录等生物学过程,因此,核小体在基因组上的位置分布可能对基冈组功能具有重要的调控作用。关于核小体的研究中,一个非常重要的问题就是核小体在基因组上的位置是如何分布的?目前存在两种观点,在过去的研究中,这两种观点都获得了一些证据的支持。一种观点认为核小体在基因组中的位置基本上是随机分布的,但是在一些功能元件附近可能按一定的规律分布,例如在基因启动子区域附近,核小体的排列比较规则、稳定;另一种观点认为,不是任意一段DNA都能够形成核小体结构,在DNA序列中存在一些决定核小体位置分布的因素,例如,过去的研究认为DNA序列中周期长度为10核苷酸的一个周期性信号可能是核小体定位的密码。
在研究阴道毛滴虫基因组和转录组数据的过程中,我们观察到一种周期性的基因组信号,表现为GC含量沿着DNA序列周期性地波动变化,波动的周期长度为120.9核苷酸(nt)。该周期信号在基因序列中最为明显,当我们将基因序列从翻译起始位置(TIS)排列对齐后,计算TIS周围每个核苷酸位置在这些基因序列中的核苷酸组成时,能够观察到GC含量从TIS开始沿着基因编码区以120.9nt的周期波动变化,形成一个周期性信号。该信号在基因编码序列上紧邻TIS的区域最为明显,随着离TIS的距离逐渐增加,GC含量波动的幅度也逐渐减弱,并在距离增加到大约2000 nt时几乎消失。该周期信号对基因密码子和氨基酸的使用频率也有很大的影响。在一些其它物种中也能鉴定到该周期信号,尤其是在一些单细胞真核生物的基因组中,如原生物生物、真菌等。但是在不同的物种中该周期信号的周期长度有所变化,而这种长度变化与这些物种中核小体DNA长度的变化一致。进一步的分析和实验证明,该周期信号为核小体结构在DNA序列上留下的痕迹,反映了缠绕在核小体上的DNA与位于核小体之间的DNA在核昔酸组成上的不同。
在阴道毛滴虫基因组中的研究结果提示我们,基因组序列中存在与核小体结构关联的基因组信号,但是,除了我们在阴道毛滴虫基因组上观察到的周期长度为120.9 nt的周期信号外,基因组序列中是否还存在其它类型的核小体定位信号呢?为了回答这个问题,我们采用一个经典的模式生物线虫的基因组展开研究。我们从公共数据库UCSC genome brower中下载了线虫基因组相关的数据,该数据除了包含线虫的基因组序列外,还包括核小体在该基因组上的位置分布信息。我们首先通过功率密度谱分析在线虫核小体DNA中检测出三个明显的周期信号,周期长度分别为3 nt,10 nt和175 nt。其中的3-nt周期信号为基因编码序列的特征信号,由于基因序列中的核小体结构比较规则稳定,因此这一信号在核小体DNA中也表现得比较明显。过去的研究认为10-nt周期信号是核小体DNA的特征信号,因为当我们将核小体DNA按照在核小体上的位置对齐排列后计算每个核苷酸位置上的GC含量时,能够观察到GC含量沿着DNA在核小体上的位置周期性地波动变化,波动的周期长度约为10 nt,然而,这个结果其实只能说明核小体在DNA上的位置必须与DNA序列中的10-nt周期信号的相位很好地吻合,也即该周期信号对核小体在DNA上的位置分布具有调整作用。我们用功率密度谱研究的结果显示,10-nt周期信号除了存在于核小体DNA中外,在其它DNA序列中也表现得同样明显。我们在线虫核小体DNA中观察到的175-nt周期信号与在阴道滴虫基因序列中观察到的120.9-nt周期信号为同一类信号,反应的都是缠绕在核小体上的DNA与位于核小体之间的DNA在核苷酸组成上的不同。另外,我们还观察到,GC含量较高的基因组区域更易于形成核小体结构。除了GC含量上的特征外,我们也观察到一种嘌呤含量上的特征,当我们将DNA按照在核小体上的位置对齐排列后计算每个核苷酸位置在这些DNA中的嘌呤含量时,能够观察到嘌呤含量沿着核小体DNA从5端到3端逐渐增加。基于我们观察到的这些与核小体定位相关的基因组信号,我们构建了一个隐马尔科夫模型,用于模拟核小体DNA的这些序列特征,并通过该模型在线虫全基因组中预测核小体的位置分布,结果显示,对于最不稳定的核小体位置,该模型能够预测出其中的50%左右,仅比随机定位核小体时得到的结果高出约3%,而对于最稳定的核小体位置,该模型能够预测出其中的60%到70%,比随机定位核小体时高出大约15%。
基于这些研究结果,我们认为,至少在基因组中的一些区域上,核小体的位置分布不是随机的,DNA序列中含有与核小体结构和定位相关的基冈组信号,具有较强的核小体定位信号的DNA能够长期形成稳定、规则的核小体结构,而在其他DNA序列上,则不容易形成核小体结构,或者只能随机地在任意位置上形成核小体结构。通过DNA序列中的核小体定位信号,能够预测核小体在基因组上的位置分布。