基于直接和配对连接信息图的基因组组装算法

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:xichblueagle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因组拼接(genome assembly)作为基因组学研究的核心技术,一直是测序数据分析中的重点和难点。它包含两部分:将测序短读段拼接成重叠群(contig)和基于连接信息把重叠群进一步组装成基因组骨架(scaffold)。针对高通量测序数据,重叠群的组装主要是利用德布鲁因图的拼接算法,目前已经研究的较为深入且效果良好。然而,如何将重叠群进一步组装成更完整的基因组骨架,由于其问题的复杂性和基于配对连接信息的组装策略本身忽略了重叠群之间的关联性,使得其对短片段重复序列富集的区域的处理并不完善。这部分序列的缺失会导致基因断裂,使某些关键遗传信息在后续的研究分析中被遗漏。  为了解决短片段重复序列对基因组组装的影响,得到高质量、连续性更好的组装结果,本文提出一个结合直接连接信息图(Direct link graph)和间接连接信息图(Paired-end link graph)的基因组组装算法inGAP-sf。其中,直接连接信息有更好的拓扑性,加入它可有效增加图的连通性,降低图的复杂性,且有助于短片段重复序列的组装;间接连接信息可监督在直接连接信息图上的遍历,进而使得短片段重复序列被组合在一起,并可以被拆分到不同路径中。由于遍历路径数量大大增加,本研究中还提出了一个基于配对读段支持度估计的模型(Statistic-based read pairs support estimation model),用于去除路径噪音。另外,针对有偏倚的库长,本研究中使用GMM模型和EM算法来得到更精确的间隙大小,也是提高组装效果的一个原因。  此外本研究中还提出了一个基于拼接断点的基因组组装评估模型,以便更加细致的对组装结果进行衡量。根据对算法中关键模块的细致评估,如引入直接连接信息图的优势,间隙大小估计的准确性,配对读段支持度估计模型的准确性和路径筛选模型的可靠性来证明本研究的算法各方面的实用性。通过各个组装软件在有针对性设计的模拟数据集上和不同的测序数据集上的表现的评估,表现该方法在可接受的运行时间和计算资源消耗情况下,可以适用于多种中小型基因组的组装,证明方法可以有效解决短片段重复序列的组装问题,并且提高了基因组组装的完整性、连续性和准确性。
其他文献
集成电路的设计进入片上系统(SOC)的设计,但随着片上系统的规模越来越大,进入深亚微米以后,问题已不在是单个芯片是否有能力容纳系统设计,而是设计如何跟上芯片设计复杂性的
本课题在传统DIS(数字信息系统)的基础上,以ARM7TDMI系列微处理器S3C44B0X为核心,设计了基于手持式应用的ARM DIS。文章围绕ARMDIS核心部件的设计展开讨论,研究了仪器系统的硬件
近年来,随着经济的快速发展,用户对于数据通信业务的需求剧增,大量的小型数字程控交换机产品广泛用于机关、企业和工矿等内部通信量大的社会集团。该类交换机一般具有自动交换、
本实验在岑软2号、岑软3号、湘林8号和华阳5号4个油茶品种及无性系的油茶花芽分化期,对油茶花芽进行解剖和石蜡切片,并检测四种油茶品种及无性系花芽中四种内源激素含量,包括玉
在日常的生活中,受到外界压力刺激的人可能会产生多种神经精神疾病如焦虑、抑郁等。而孕妇,由于其特殊的身体状态,更容易受到这些压力的影响。在怀孕期间孕妇如果受到外界应激将
RUS(ROOT UV-B SENSITIVE)是包含DUF647的结构域,并与植物感受低强度UV-B有关的基因,广泛存在于拟南芥、水稻、苔藓、果蝇、人等的基因组中。在水稻的全基因组中,共有6个RUS基因
miRNA是生物体内广泛存在的一类转录后调控元件,它们通过碱基序列互补的方式特异性地识别靶mRNA,进而介导靶mRNA的降解或抑制蛋白质的翻译,从而在转录后水平调控基因的表达。植
下一代网络(NGN)的提出带来了通信网络技术革命,NGN并不具体特指某一网络,而是泛指一种新的网络体系结构。这种体系以IP为中心,可以同时支持语音、数据、多媒体等业务。ITU-T对N
磷是植物生长发育必需的大量矿物质营养元素之一,广泛参与了多个重要的生物学过程,例如能量代谢、脂膜和核苷酸的生物合成、光合成、呼吸作用、酶活性调控以及信号转导等。因此
植物根的生长依赖于根尖分生组织细胞的持续分裂活性。在根尖分生组织中,分裂不活跃的静止中心(quiescentcenter,QC)细胞,及其周围分裂活性相对旺盛的干细胞,共同组成所谓的根尖