论文部分内容阅读
表观遗传学是后基因组时代的领舞者,核小体定位是表观遗传学的重要研究领域。核小体作为真核生物染色质高级结构的基本单位,不仅压缩了染色质结构,也发挥着重要的基因表达调控功能。核小体通过阻断蛋白因子与DNA序列的接触来完成对转录、复制、重组、修复、剪接、疾病的发生等过程的调控。研究真核生物的核小体定位不仅可以进一步阐明染色质高级结构的形成机制,也有助于揭示复杂的基因表达调控过程。核小体在真核基因组的位置由DNA序列、染色质重塑子、转录机器、组蛋白修饰、组蛋白变体等因素共同决定。迄今为止,DNA序列仍是对核小体定位影响程度最大的单一因素。基于序列因素研究核小体定位的理论和实验工作已经不少。然而,现有的大多数核小体定位的理论工作的研究焦点集中于缠绕在组蛋白八聚体的核心DNA,对核小体核心颗粒之间的连接DNA关注较少。本文基于核小体定位的高通量测序数据,详细分析了核小体核心DNA和连接DNA的序列特征差异,并以DNA的序列特征为输入参数分别发展了位置相关得分函数(position-correlation scoring function, PCSF)和支持向量机(support vector machine, SVM)预测酵母等真核基因组的核小体定位。主要研究成果如下:1.统计分析了酵母基因组核小体核心DNA(core DNA)和连接DNA(linker DNA)的K-mer(k=1,2,...6)特征和序列偏性特征Mk(i)(k=1,2,...6)。Core DNA内寡核苷酸片段的A+T含量低于linker DNA。A+T含量越高,序列的刚性越强,越不利于DNA的弯曲。因此,core DNA内由A和T组成的寡核苷酸片段含量低有助于核心DNA缠绕组蛋白八聚体。Linker DNA的k-mer偏性特征Mk(i)(k=1,2,...6)的值高于core DNA。因此,linker DNA的序列偏性强于core DNA,或者说linker DNA的序列保守性强于core DNA。这一发现为我们结合linker DNA的序列特征预测核小体定位提供了重要线索。2.信息冗余参数Dk描述了DNA序列的词汇组成和语法结构。计算酵母、果蝇、线虫基因组的核小体定位序列的Dk值证实核小体core DNA和linker DNA的Dk值存在显著差异;core DNA和linker DNA序列都具有短程关联为主性特征。这种以短程关联为主的特性也解释了为什么大多数基于寡核苷酸片段或k-mer信息的核小体定位理论预测模型能够取得较好的预测效果。我们也证实,core DNA和linker DNA之间的信息含量差异性以及短程关联为主特征是普适的,既不受实验数据来源的牵制,也不受linker DNA长度的影响。3.功率谱分析是识别DNA序列周期性信号的重要手段。酵母、果蝇、线虫基因组核小体core DNA和linker DNA的序列功率谱分析显示:三种模式生物的核小体core DNA序列内存在较明显的3-nt和10-nt周期性,且该周期信号强于相应的linker DNA序列。另外,我们也观察到了功率谱的物种特异性。4.为进一步阐明碱基关联性对核小体定位的影响,分别计算了描述16种特定二核苷碱基关联的参数Fk在core DNA和linker DNA的分布。以核小体定位序列的参数Fk(k=0,1,2,...98)对应的1,584(99×16)维向量作为输入特征的支持向量机能够较好的区分H. sapiens, O. latipes, C. elegans, C. albicans和S. cerevisiae的core DNA和linker DNA,预测平均总精度TA为76.05%,相关系数MCC为0.4876。5.基于linker DNA的四联体偏性M4(i)特征构建了预测酵母基因组核小体定位的PCSF算法。该算法可以较好的区分核小体core DNA和linker DNA,五折交叉检验的敏感性和特异性平均值分别达到94.42%和94.35%。我们也应用PCSF算法预测了酵母全基因组核小体占据率,预测的核小体占据率与Kaplan测定的体外核小体定位实验图谱的Pearson相关系数为0.761。预测的特定基因邻近区的核小体占据率也与实验结果较吻合。应用PCSF算法预测转录起始位点、转录终止位点、复制起始位点三类功能区域的核小体占据率图谱,能够识别出关键的核小体缺乏区。PCSF算法可以作为核小体定位理论预测的有效工具。