验证酵母基因组序列中8-mer的独立进化规律和生物学功能

来源 :内蒙古大学 | 被引量 : 1次 | 上传用户:wws123400
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全基因组序列k-mer的使用是非随机的,不同种类的k-mer具有不同的生物学功能,发掘k-mer使用规律以及k-mer的生物学功能对于基因组结构进化和系统理解功能片段非常重要。上百个物种的k-mer频谱研究发现四足动物的k-mer频谱是多峰分布,其他生物的k-mer频谱是单峰分布。K-mer多峰谱产生的原因众说纷纭,有研究指出不同类型的功能或结构元件是产生多峰谱的主要原因,也有研究认为多峰谱是以G+C含量和CpG抑制为特征,还有研究认为多峰是由两类稀有k-mer形成的。所以基因组k-mer频谱产生的原因仍待研究。论文运用统计分析和生物信息学等方法,结合人类k-mer频谱的分布规律,研究了酵母基因组序列k-mer频谱的规律,探讨了 CG类8-mer子集的独立进化机制,对CG类模体的生物学功能给出理论猜测和验证。主要研究内容如下:(1)计算得到人类1号染色体序列的8-mer相对模体数随频次的分布(简称8-mer频谱),发现8-mer频谱是三峰分布。将全部8-mer按照16种XY二核苷分类分成三个子集后,发现仅有CG二核苷分类下的三个子集CG0(不包含CG二核苷的8-mer)、CG1(包含一个CG的8-mer)和CG2(包含两个或两个以上CG的8-mer)各自形成独立的单峰分布,称之为CG类模体的独立进化规律。三个CG模体子集的分布位置与总体8-mer分布的三个峰严格对应。由此得出三个CG子集分布距离的远近是决定单峰分布还是多峰分布的直接原因。与随机序列的8-mer频谱比较,发现CG0模体的频谱位于随机中心附近,CG1和CG2模体的频谱远离随机中心。表明包含CG二核苷的8-mer是定向进化,不包含CG二核苷的8-mer是随机进化。CG三个子集的分布具有两个特征:(i)CG2和CG1分布的最概然频次明显低于CG0分布;(ii)CG2和CG1分布的宽度明显窄于CG0分布。这两特征表明CG2和CG1子集中的8-mer使用是保守的。分析三个CG子集、核小体中心序列(NCSs)和CpG岛(CGIs)的序列特征后,提出两个理论猜想:CG1模体是核小体结合模体;CG2模体是CGIs的模体单元。(2)酵母基因组序列的8-mer频谱为单峰分布。计算酵母中16种二核苷分类下8-mer相对模体数随频次的分布,发现只有CG子集分布具备人类CG子集分布的两个特征,表明酵母中CG2和CG1子集中的8-mer使用也是保守的,以及酵母的单峰分布是三个CG子集分布太近叠加后的结果。因此得到这样的结论:CG模体使用的进化独立规律从最简单的真核生物酵母就开始了。由于CG子集模体数目众多,用三个CG子集中m-mer(m=2,3,4)的频率来表征CG子集的模体信息。首先分析发现三个CG子集模体信息偏离总体8-mer的程度各不相同。然后考察了酵母基因组序列在16种XY1分类下m-mer使用的总偏离(新对称相对熵NSRE),发现CG分类下的模体使用偏离最大。得出CG二核苷在从简单到复杂的基因组进化中是功能元件产生和进化"核心"的结论。(3)为了验证CG1模体是否是核小体结合模体,分别将CG0、CG1和CG2子集的模体信息赋值到酵母的核小体中心序列和连接序列上做二分类评估。结果指出基于CG1模体信息得到的平均ROC面积(AUC)最大,说明CG1模体比起CG0和CG2模体更偏好核小体中心序列。然后基于CG1子集模体信息得到核小体中心序列上的NSRE分布,该分布与已出版的结果一致。结果显示富含模体决定核小体的基本框架,稀有模体决定核小体的精细结构。将标准组蛋白八聚体沿着DNA双链展开成一维排列后,NSRE分布的极大值区域与八个组蛋白位置存在极好的一一对应关系。这两个结果共同验证了 CG1模体是核小体结合模体的猜想。(4)统计分析单碱基精度核小体位置数据,发现一些核小体处于挤压状态。根据挤压的位置将核小体分为四类:标准核小体;上游挤压核小体;下游挤压核小体;两端挤压核小体。基于CG1模体是核小体结合模体的结论,分析了四类核小体中心序列上NSRE的分布特征,发现挤压核小体随着挤压端和非挤压端序列结构的变化而变化,而且核小体受挤压的区域其序列的组织性更强。随后,核小体连接序列按长度增长的方式分类为11个长度组,利用MEME在线软件搜索了 11个长度组中的保守模体,发现有四类保守模体,意味着连接序列的多样性。(5)为了验证CG2模体是否是CGIs的模体单元,分别将CG2、CG1和CG0模体信息赋值到酵母的CGIs和相应的非CpG岛序列上做ROC分析,得到的平均AUC值分别为0.95,0.80和0.02,显示CG2模体信息与CGIs的构成信息非常符合。在ROC曲线上选取最佳临界值,计算该临界值下的总精度(AAC)和相关系数(MCC),该结果进一步确认了 CG2模体信息可以表征CGIs序列,从而验证了 CG2模体是CGIs的结构单元。
其他文献
新华社2003年5月2日报道,近日,我海军一艘常规动力潜艇在内长山以东我领海进行训练时,因机械故障失事,艇上70名官兵不幸全都遇难。5月5日报道,5月3日,江泽民、胡锦涛等中央军
期刊
农村集体土地所有权是土地公有制的重要组成部分。我国《物权法》延续了《民法通则》将所有权概念与所有制概念混淆使用的方式,规定农村集体成员行使集体土地所有权,由此使得
以ATmega128为主控芯片将外部接收到的数据,通过大容量flash作为数据缓冲,再通过控制USB接口芯片CH376存储至U盘中,实现控制读写大容量flash数据作为数据缓冲以实现脱离计算
该文探讨了干燥脱水后的复苏植物密罗木(Myrothamnus flabellifolia)的复水速度和复水后不同时间下的木质部压力与植物对光-暗反应的关系。研究结果表明,密罗木整株植物和离
结合沈阳工程学院图书馆近年来的网络采购实践,探讨了网络采购在图书馆工作中的应用,剖析了网络采购的优势与问题,特别是网络采购应注意的事项.
分析了500kV变压器操作冲击试验的现状,提出用直流励磁法代替传统的操作冲击励磁法。
在碱性条件下,以六水合氯化镍为基底,以尿素为沉淀剂,温度为180℃时,采用水热法制备了氢氧化镍中间体,将其进行焙烧得到氧化镍粉体。利用X射线衍射(XRD)和扫描电镜(SEM)对样品的
基因组序列k-mer出现的频次存在进化分离现象。基于这一现象,我们分析了酵母基因组核小体核心序列与核小体连接序列中k-mer (k≤8)使用频次的差异。分析了人类1号染色体基因
社员资格,是指主体成为农民专业合作社社员所应具备的条件和身份。法律对合作社社员资格的开放抑或限制的权衡,在法的价值层面是公平与效率的价值冲突,在私法层面是私法自治与国
近年来,医疗条件不断提升,再加上医患关系紧张,我国剖宫产率明显上升。剖宫产手术是产科比较常见的手术,是解决难产和产科合并症,挽救产妇和围生儿生命的有效手段[1],但剖宫