基于长读的基因组重复序列查找技术研究

来源 :深圳大学 | 被引量 : 1次 | 上传用户:DeadManWalk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因组中出现两次或者两次以上基本相同的序列称为重复序列。重复序列信息可以用来可以分析物种的进化,减少基因比对歧义,降低序列拼接数据缺失。与标准重复序列库对比,基于短读序列数据的重复序列查找技术得到的结果并不完整,平均长度较短。长读数据平均长度较长,比短读数据具有更多的信息,可以包含更长、更完整的重复序列。本研究利用长读数据查找重复序列,得到了更长、信息更全的重复序列。研究基于长读数据的重复序列查找技术,主要创新如下:1)提出基于长读数据的查找重复序列技术,得到比基于短读方法更长更完整的重复序列。该方法首先通过比较序列索引的MHAP方法,计算长读数据之间的重叠信息。然后构造重叠网络,其中网络顶点与边分别代表长读信息和重叠长度。之后再利用模块度最优化方法聚类网络节点,得到具有重叠多的读数基团。最后通过分析读数重叠长度的变化,得到基团中代表性读数长度,将其对应的重复序列作为基团代表性重复序列。2)提出RepPeak重复序列查找技术,通过改进RepLong,解决网络基团分辨率的问题,结果具有更好的解释性。该方法先以已有序列或通过Canu拼接长读数据得到的序列作为参考序列。之后分析长读数据与参考序列的比对结果,计算每一个参考序列位点的深度变化,得到深度变化大的位置。再对深度变化位置进行合并和去除操作,从参考序列中抽取对应的序列,即得到重复序列。利用基于长读数据的重复序列查找技术分析果蝇和人类基因数据,可以得到比基于短读技术更长的重复序列,包含了更完整的标准重复序列库信息,弥补了短读数据片段化,包含信息不完全的问题。充分利用了长读读长的优势,不需要拼接读数就可以得到更完整的重复序列。
其他文献
两相流的研究对动力工业、管道运输、核能利用等众多领域有重要意义,其流动机理研究与参数测量模型更是为流量计等工业设备研发提供了重要的理论依据。但是由于两相流复杂的
体验经济时代到来,立足于消费理念、消费方式和消费行为模式的研究,迎合消费者对于商品差异化符号价值的追求和日益增强的对于情感体验的需求,体验类主题性商场建筑应运而生。体验经济的核心是互动,通过与消费者的精神沟通,引导消费者产生精神共鸣而形成难忘的独特体验。体验类主题性商场的设计正是需要运用建筑的手法完成与消费者的互动,体现场所精神,塑造印象情境,营造诱发感官刺激的空间氛围。体验类主题性商场设计的重点
水泥浆水化过程中将产生大量钙离子,当这些钙离子与钻井液发生混合时,易形成粘稠团块状絮凝物质,这将造成水泥浆顶替不到位、水泥石抗压强度和胶结强度大幅降低,严重影响固井
从人类开始掌控电力开始,电力推动了第二次工业革命的前进,给社会和生活带来的巨大的变革,一系列用电设备随之产生、发展。时至而今,市面上所应用的电子产品琳琅满目。电子类
不腐蚀材料——玻璃纤维增强聚合物(GFRP)现已被用作混凝土结构的增强材料,以延长混凝土结构的使用寿命并降低维护成本。与钢筋具有不同物理性能的GFRP筋,抗拉强度大、弹性模
GF-5卫星全谱段成像仪在热红外8-13μm谱段范围内具有4个温度反演通道(B09:8.018.393μm、B10:8.428.833μm、B11:10.311.33μm、B12:11.412.53μm),空间分辨率小于40m,是国内首个具有四个热红外通道的卫星,为温度反演等领域研究提供良好的基础。本文以MODTRAN(Moderate resolution atmospheric Transmi
平面开关磁阻电机(Planar Switched Reluctance Motor,PSRM)具有直接驱动、结构简单、行程大、精度高、可靠性高和环境适应性强的优点,在半导体制造装备等先进制造领域显示出
近半个世纪以来,癌症已发展成为临床医学的重大疾病,严重威胁人类的生命健康。随着全球人口总数的不断增长、人口老龄化趋势的逐渐加剧、环境污染以及生活方式的改变,癌症的
BZ区块存在巨厚砾石层,研磨性高、可钻性差,常规钻井机械钻速极慢。现场运用气体钻井技术,在大幅度提高了机械钻速同时,也出现了例如地层井筒成片垮塌、掉块等复杂情况和事故
碳酸盐岩储层分布广泛、物性好、储量大、产量高,容易形成大型油气田,是全世界非常重要的油气资源。碳酸盐岩裂缝液固两相流动规律研究对裂缝性漏失、地层溢流、裂缝性地层封