基于序列信息的核小体定位理论分析及预测

来源 :内蒙古大学 | 被引量 : 4次 | 上传用户:xiaoyuerhaha
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
表观遗传学是后基因组时代的领舞者,核小体定位是表观遗传学的重要研究领域。核小体作为真核生物染色质高级结构的基本单位,不仅压缩了染色质结构,也发挥着重要的基因表达调控功能。核小体通过阻断蛋白因子与DNA序列的接触来完成对转录、复制、重组、修复、剪接、疾病的发生等过程的调控。研究真核生物的核小体定位不仅可以进一步阐明染色质高级结构的形成机制,也有助于揭示复杂的基因表达调控过程。核小体在真核基因组的位置由DNA序列、染色质重塑子、转录机器、组蛋白修饰、组蛋白变体等因素共同决定。迄今为止,DNA序列仍是对核小体定位影响程度最大的单一因素。基于序列因素研究核小体定位的理论和实验工作已经不少。然而,现有的大多数核小体定位的理论工作的研究焦点集中于缠绕在组蛋白八聚体的核心DNA,对核小体核心颗粒之间的连接DNA关注较少。本文基于核小体定位的高通量测序数据,详细分析了核小体核心DNA和连接DNA的序列特征差异,并以DNA的序列特征为输入参数分别发展了位置相关得分函数(position-correlation scoring function, PCSF)和支持向量机(support vector machine, SVM)预测酵母等真核基因组的核小体定位。主要研究成果如下:1.统计分析了酵母基因组核小体核心DNA(core DNA)和连接DNA(linker DNA)的K-mer(k=1,2,...6)特征和序列偏性特征Mk(i)(k=1,2,...6)。Core DNA内寡核苷酸片段的A+T含量低于linker DNA。A+T含量越高,序列的刚性越强,越不利于DNA的弯曲。因此,core DNA内由A和T组成的寡核苷酸片段含量低有助于核心DNA缠绕组蛋白八聚体。Linker DNA的k-mer偏性特征Mk(i)(k=1,2,...6)的值高于core DNA。因此,linker DNA的序列偏性强于core DNA,或者说linker DNA的序列保守性强于core DNA。这一发现为我们结合linker DNA的序列特征预测核小体定位提供了重要线索。2.信息冗余参数Dk描述了DNA序列的词汇组成和语法结构。计算酵母、果蝇、线虫基因组的核小体定位序列的Dk值证实核小体core DNA和linker DNA的Dk值存在显著差异;core DNA和linker DNA序列都具有短程关联为主性特征。这种以短程关联为主的特性也解释了为什么大多数基于寡核苷酸片段或k-mer信息的核小体定位理论预测模型能够取得较好的预测效果。我们也证实,core DNA和linker DNA之间的信息含量差异性以及短程关联为主特征是普适的,既不受实验数据来源的牵制,也不受linker DNA长度的影响。3.功率谱分析是识别DNA序列周期性信号的重要手段。酵母、果蝇、线虫基因组核小体core DNA和linker DNA的序列功率谱分析显示:三种模式生物的核小体core DNA序列内存在较明显的3-nt和10-nt周期性,且该周期信号强于相应的linker DNA序列。另外,我们也观察到了功率谱的物种特异性。4.为进一步阐明碱基关联性对核小体定位的影响,分别计算了描述16种特定二核苷碱基关联的参数Fk在core DNA和linker DNA的分布。以核小体定位序列的参数Fk(k=0,1,2,...98)对应的1,584(99×16)维向量作为输入特征的支持向量机能够较好的区分H. sapiens, O. latipes, C. elegans, C. albicans和S. cerevisiae的core DNA和linker DNA,预测平均总精度TA为76.05%,相关系数MCC为0.4876。5.基于linker DNA的四联体偏性M4(i)特征构建了预测酵母基因组核小体定位的PCSF算法。该算法可以较好的区分核小体core DNA和linker DNA,五折交叉检验的敏感性和特异性平均值分别达到94.42%和94.35%。我们也应用PCSF算法预测了酵母全基因组核小体占据率,预测的核小体占据率与Kaplan测定的体外核小体定位实验图谱的Pearson相关系数为0.761。预测的特定基因邻近区的核小体占据率也与实验结果较吻合。应用PCSF算法预测转录起始位点、转录终止位点、复制起始位点三类功能区域的核小体占据率图谱,能够识别出关键的核小体缺乏区。PCSF算法可以作为核小体定位理论预测的有效工具。
其他文献
<正> 随着我国教育事业的发展及科学技术的突飞猛进,编写好《概率统计》教材以适应形势的发展已经提到议事日程上来了,其中一个有待解决的重要问题是怎样看待概率论的公理化
给出了用MATLAB符号计算求解双正交小波的滤波器系数(有理数)的程序,并更正了某些文献中的滤波器系数中的错误.
当今世界对能源的需求正变得越来越大,作为能源主体的化石能源日益枯竭,而核裂变能存在着资源贮量有限、放射性废物危害较大等固有缺陷,其它能源尚不能承担世界庞大的能源需
《<婚姻法>司法解释(二)》第24条存在"三大错误"与"保护债权人的虚假功能",之后出台的相关司法解释无法从根本上解决问题,支持第24条的"内外有别论""婚后所得共同财产决定论"
本文中对广州城市地质调查项目的专项广州城市地质三维地质结构调查工作进行了介绍,并主要介绍了专项中水文地质工作任务要求和工作目标。接着以任务要求和目标为着入点,讨论
在国际交流日益频繁的大背景下,市场对口译人才需求日益增加。高等教育英语专业教学指导委员会于2000年5月将口译课纳入英语教学大纲,国家教育部又于2006年正式开始设立翻译本
湖南省株洲冶炼厂是我国最大的有色金属加工基地,建国以来为祖国的矿业开发做出了重大贡献,但在几十年的生产过程中,由于生产工艺、设备和“三废”处置设施等诸多问题,冶炼厂也向
目前随着电力电子技术的发展,各类变频设备广泛应用于电力系统中。由于大量电力电子设备以及非线性负载的接入,电力系统中混有越来越多的谐波和间谐波。目前,谐波与电磁干扰,功率
衰老是每个个体必经的生命阶段,衰老意味着肌体功能的衰退以及劳动能力的下降和思维能力的减弱。与衰老相对应的是人们对健康的需求,健康是人类发展追求的必然目标。在人口老
上扬子地区为我国下古生界(下寒武统牛蹄塘组页岩、上奥陶统五峰组—下志留统龙马溪组)页岩气勘探开发主导区,湘鄂西、渝东地区地处上扬子区东南缘。本文通过运用沉积学、岩石学