论文部分内容阅读
全基因组序列k-mer的使用是非随机的,不同种类的k-mer具有不同的生物学功能,发掘k-mer使用规律以及k-mer的生物学功能对于基因组结构进化和系统理解功能片段非常重要。上百个物种的k-mer频谱研究发现四足动物的k-mer频谱是多峰分布,其他生物的k-mer频谱是单峰分布。K-mer多峰谱产生的原因众说纷纭,有研究指出不同类型的功能或结构元件是产生多峰谱的主要原因,也有研究认为多峰谱是以G+C含量和CpG抑制为特征,还有研究认为多峰是由两类稀有k-mer形成的。所以基因组k-mer频谱产生的原因仍待研究。论文运用统计分析和生物信息学等方法,结合人类k-mer频谱的分布规律,研究了酵母基因组序列k-mer频谱的规律,探讨了 CG类8-mer子集的独立进化机制,对CG类模体的生物学功能给出理论猜测和验证。主要研究内容如下:(1)计算得到人类1号染色体序列的8-mer相对模体数随频次的分布(简称8-mer频谱),发现8-mer频谱是三峰分布。将全部8-mer按照16种XY二核苷分类分成三个子集后,发现仅有CG二核苷分类下的三个子集CG0(不包含CG二核苷的8-mer)、CG1(包含一个CG的8-mer)和CG2(包含两个或两个以上CG的8-mer)各自形成独立的单峰分布,称之为CG类模体的独立进化规律。三个CG模体子集的分布位置与总体8-mer分布的三个峰严格对应。由此得出三个CG子集分布距离的远近是决定单峰分布还是多峰分布的直接原因。与随机序列的8-mer频谱比较,发现CG0模体的频谱位于随机中心附近,CG1和CG2模体的频谱远离随机中心。表明包含CG二核苷的8-mer是定向进化,不包含CG二核苷的8-mer是随机进化。CG三个子集的分布具有两个特征:(i)CG2和CG1分布的最概然频次明显低于CG0分布;(ii)CG2和CG1分布的宽度明显窄于CG0分布。这两特征表明CG2和CG1子集中的8-mer使用是保守的。分析三个CG子集、核小体中心序列(NCSs)和CpG岛(CGIs)的序列特征后,提出两个理论猜想:CG1模体是核小体结合模体;CG2模体是CGIs的模体单元。(2)酵母基因组序列的8-mer频谱为单峰分布。计算酵母中16种二核苷分类下8-mer相对模体数随频次的分布,发现只有CG子集分布具备人类CG子集分布的两个特征,表明酵母中CG2和CG1子集中的8-mer使用也是保守的,以及酵母的单峰分布是三个CG子集分布太近叠加后的结果。因此得到这样的结论:CG模体使用的进化独立规律从最简单的真核生物酵母就开始了。由于CG子集模体数目众多,用三个CG子集中m-mer(m=2,3,4)的频率来表征CG子集的模体信息。首先分析发现三个CG子集模体信息偏离总体8-mer的程度各不相同。然后考察了酵母基因组序列在16种XY1分类下m-mer使用的总偏离(新对称相对熵NSRE),发现CG分类下的模体使用偏离最大。得出CG二核苷在从简单到复杂的基因组进化中是功能元件产生和进化"核心"的结论。(3)为了验证CG1模体是否是核小体结合模体,分别将CG0、CG1和CG2子集的模体信息赋值到酵母的核小体中心序列和连接序列上做二分类评估。结果指出基于CG1模体信息得到的平均ROC面积(AUC)最大,说明CG1模体比起CG0和CG2模体更偏好核小体中心序列。然后基于CG1子集模体信息得到核小体中心序列上的NSRE分布,该分布与已出版的结果一致。结果显示富含模体决定核小体的基本框架,稀有模体决定核小体的精细结构。将标准组蛋白八聚体沿着DNA双链展开成一维排列后,NSRE分布的极大值区域与八个组蛋白位置存在极好的一一对应关系。这两个结果共同验证了 CG1模体是核小体结合模体的猜想。(4)统计分析单碱基精度核小体位置数据,发现一些核小体处于挤压状态。根据挤压的位置将核小体分为四类:标准核小体;上游挤压核小体;下游挤压核小体;两端挤压核小体。基于CG1模体是核小体结合模体的结论,分析了四类核小体中心序列上NSRE的分布特征,发现挤压核小体随着挤压端和非挤压端序列结构的变化而变化,而且核小体受挤压的区域其序列的组织性更强。随后,核小体连接序列按长度增长的方式分类为11个长度组,利用MEME在线软件搜索了 11个长度组中的保守模体,发现有四类保守模体,意味着连接序列的多样性。(5)为了验证CG2模体是否是CGIs的模体单元,分别将CG2、CG1和CG0模体信息赋值到酵母的CGIs和相应的非CpG岛序列上做ROC分析,得到的平均AUC值分别为0.95,0.80和0.02,显示CG2模体信息与CGIs的构成信息非常符合。在ROC曲线上选取最佳临界值,计算该临界值下的总精度(AAC)和相关系数(MCC),该结果进一步确认了 CG2模体信息可以表征CGIs序列,从而验证了 CG2模体是CGIs的结构单元。