人类基因组序列8-mer频谱的内在规律和各类8-mers的生物功能

来源 :内蒙古大学 | 被引量 : 1次 | 上传用户:ieuieuieu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,揭示基因组序列k-mer频谱的内在规律逐步成为研究热点。物种基因组序列的k-mer频谱是确定的,不同物种之间其k-mer频谱的差异是有规律的。高等哺乳动物(k>6)呈多峰分布,低等生物为单峰分布。基于国内外研究现状及发展动态,我们研究了人类基因组8-mer三峰频谱分布的内在规律,发现基因组序列中三种CG类8-mers是独立进化的,称之为基因组的独立选择定律。通过深入的分析,给出了三种CG类8-mer频谱的进化特征,验证了基因组独立选择定律的正确性。提出了三种CG类8-mers生物功能的理论猜想。研究了三种CG类8-mers在核小体占据序列和CpG岛序列中的特征以及与它们所承担生物功能的关系。分析了人类和小鼠含CG类8-mers距离分布的保守性,给出了两类基因组核小体占据序列组成的差异。主要研究内容如下:1.分析了人类基因组序列8-mer频谱的三峰分布现象。我们认为出现三个峰分布的原因是包含在三个峰中的模体遵循着不同的进化选择而形成的,这三类模体蕴含着基因组序列的构成方式。以人类全基因组序列、基因间序列、内含子序列和编码序列为研究对象,给出了4类序列的8-mer频谱。发现除编码序列外,其他三类序列的8-mer频谱均为三峰分布。为了分离出三个峰中的模体,我们提出了XY二核苷(16种)分类方法,该方法根据8-mer中包含两个、一个或不包含XY二核苷将全体8-mers分成XY2、XY1和XY0三类模体子集。发现只有在CG二核苷分类下,CG0、CG1和CG2类模体子集能够各自形成独立的单峰频谱,并将基因组全体8-mer频谱干净的分成三类,而在其他15种XY二核苷分类中则不存在此现象,我们称之为基因组的独立选择定律。2.分析了各研究序列的三种CG类子集8-mer频谱的分布特征。首先,分析了各CG类子集频谱的位置。参考随机序列的8-mer频谱,发现三种CG类子集8-mer频谱的位置出现明显的分离现象,CG2类子集的8-mer频谱出现在低频端,距离随机频谱中心最远,CG1类子集的频谱次之,CG0类子集的频谱在随机中心附近。其次,分析了三类子集频谱分布的保守性(单色性)。三类子集频谱分布的标准差显示,CG2类子集8-mer频谱显示出强烈的保守性,CG1类子集的8-mer频谱次之,CG0类子集8-mer频谱的保守性最低。结果表明:独立选择定律的核心特征有三点:(1)CG1和CG2类8-mers是基因组定向进化的结果,CG0类8-mers是随机进化的结果;(2)三种CG类子集的8-mer频谱的位置存在进化分离现象;(3)CG2和CG1类子集的8-mer频谱的分布具有显著的保守性。以上三点就是基因组独立选择定律的基本特征。我们同时分析了其他15种XY类子集的频谱特征,发现均不满足上述三个特征。独立选择定律指出,任何DNA序列均是由这三类独立进化的CG类模体构成,三种CG类模体在序列上的含量和分布特征决定了该序列所承担的生物功能。3.根据独立选择定律的特性和功能序列实验结论及理论分析结果,我们认为三类CG类子集中的8-mers具有不同的生物功能,由此提出了一个理论猜测,即CG2类子集中的模体是构成CpG岛序列的核心模体,CG1和CG0类子集中的模体反映了CpG岛序列的多样性;CG1类子集中的模体是构成核小体结合模体的主要元素,CG2和CG0类子集中的模体反映了核小体序列的多样性。为了验证理论猜想,对三类CG类子集中的8-mers的信息分别在核小体占据序列和CpG岛序列上进行了表征。ROC二分类判别分析显示,在核小体占据序列上最偏好的是CG1类8-mers,CG2类8-mers次之。在核小体缺乏序列上最偏好的是CG0类8-mers,CG1和CG2类8-mers没有显示出偏好性。在CpG岛序列上,最偏好的是CG2类8-mers,CG1类8-mers次之。CG0类8-mers在非Cp G岛序列上最偏好。研究结论支持了我们的理论猜想。4.在验证了含CG二核苷8-mers是核小体占据序列偏好模体的基础上,分析了核小体占据与缺乏序列的序列特征,包括k-mer频率、k-mer分布(k=1,2,3)和G+C含量。结果显示,核小体占据序列单碱基出现的频率基本均匀,而核小体缺乏序列上碱基A/T频率明显高于C/G频率,核小体占据序列的G+C含量明显高于核小体缺乏序列,其他序列特征在核小体占据和缺乏序列中没有明显的差异。总体而言,通常的序列信息分析在研究核小体占据序列特征中不能有效揭示序列的核心特征,再次印证了基于基因组独立选择定律的原理出发研究功能序列的有效性和可行性。5.从距离保守的角度考察了一对含CG二核苷模体在序列中的关联。分别对人和小鼠基因组的核小体占据序列和核小体缺乏序列,统计分析序列中含CG二核苷8-mer对的距离分布和距离方差的差异,旨在用人和小鼠基因组中一对含CG二核苷的8-mer的距离刻画该对模体在人鼠基因组中的保守性。结果显示在核小体占据序列上含CG二核苷模体对的平均距离差值明显小于核小体缺乏序列,核小体占据序列上含CG二核苷模体对的平均距离差值分布的方差明显小于核小体缺乏序列相应的方差。结果表明:与核小体缺乏序列相比,含CG二核苷模体对的分布在人类和小鼠核小体占据序列中具有强保守性。
其他文献
以ATmega128为主控芯片将外部接收到的数据,通过大容量flash作为数据缓冲,再通过控制USB接口芯片CH376存储至U盘中,实现控制读写大容量flash数据作为数据缓冲以实现脱离计算
该文探讨了干燥脱水后的复苏植物密罗木(Myrothamnus flabellifolia)的复水速度和复水后不同时间下的木质部压力与植物对光-暗反应的关系。研究结果表明,密罗木整株植物和离
结合沈阳工程学院图书馆近年来的网络采购实践,探讨了网络采购在图书馆工作中的应用,剖析了网络采购的优势与问题,特别是网络采购应注意的事项.
分析了500kV变压器操作冲击试验的现状,提出用直流励磁法代替传统的操作冲击励磁法。
在碱性条件下,以六水合氯化镍为基底,以尿素为沉淀剂,温度为180℃时,采用水热法制备了氢氧化镍中间体,将其进行焙烧得到氧化镍粉体。利用X射线衍射(XRD)和扫描电镜(SEM)对样品的
基因组序列k-mer出现的频次存在进化分离现象。基于这一现象,我们分析了酵母基因组核小体核心序列与核小体连接序列中k-mer (k≤8)使用频次的差异。分析了人类1号染色体基因
社员资格,是指主体成为农民专业合作社社员所应具备的条件和身份。法律对合作社社员资格的开放抑或限制的权衡,在法的价值层面是公平与效率的价值冲突,在私法层面是私法自治与国
近年来,医疗条件不断提升,再加上医患关系紧张,我国剖宫产率明显上升。剖宫产手术是产科比较常见的手术,是解决难产和产科合并症,挽救产妇和围生儿生命的有效手段[1],但剖宫
全基因组序列k-mer的使用是非随机的,不同种类的k-mer具有不同的生物学功能,发掘k-mer使用规律以及k-mer的生物学功能对于基因组结构进化和系统理解功能片段非常重要。上百个
近期,中共中央政治局会议提出了“六个稳”,其中,稳投资是主要内容之一,凸显投资在稳定短期需求和促进长期发展方面的关键作用。$$当前稳投资的必要性$$一是投资增速持续下行,最终
报纸