基于BWT的DNA重叠群序列合并算法研究

被引量 : 0次 | 上传用户:xiang43
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自1977年基因测序技术的产生发展之后,人们对基因分子生物学的研究和探索的热情日益高涨,分子生物学迅猛发展,第二代测序技术的产生使基因分子生物学的发展产生巨大变革。随之第三代测序技术不断发展,人们能够更容易的获得大量的基因测序数据。不同于第一代测序技术产生的较长序列片段,新一代测序的数据片段相对较短,错误率也较高,同时,新一代测序技术的拥有的显著优点就是高通量,成本低,其显著优点促使研究人员对基因组拼接组装算法的研究产生更大的热情。生物测序技术革命性的飞跃,使基因的拼接合并技术面临新的挑战。本文将要探讨的DNA重叠群序列的合并算法,是全基因组拼接组装算法的一个重要过程,即为全基因组组装过程,但是在很多研究中,基因的组装过程都只是在基因拼接之后的一个拼接优化过程。研究独立于全基因组拼接组装并高效率的处理海量测序数据的重叠群序列合并算法是非常值得深入探讨的。本文提出了一种新的DNA重叠群序列的合并算法。该算法是基于BWT方法,建立关于DNA重叠群参考序列的索引结构。利用现有的配对信息数据库,将配对信息与DNA重叠群之间的位置关系搜索过程转化为BWT索引的序列匹配过程,这种方法能提高处理海量测序数据的时间效率。同时采用抽样保存BWT的索引信息方法,降低算法实现的内存占有率。实验中,将参考序列的BWT索引得到的与配对信息的位置关系信息保存在数据结构中,同时对重叠群序列之间的匹配关系进行比较删除,得到关联性最高的重叠群序列,将其进行合并,最后得到具有较高质量的重叠群序列合并成更长的碱基序列。同时考虑相邻重叠群序列之间的两种位置关系,对重叠群序列合并结果进行优化更新,修正重复的序列片段并填充空隙,最终输出重叠群序列合并结果序列。本文提出的重叠群序列合并算法,是独立于基因拼接组装技术的针对重叠群序列处理的算法,利用BWT结构的快速序列匹配功能,降低内存空间的占用,提高算法运行的速度,实现重叠群序列的合并。最后通过对重叠群序列合并结果序列的完善,充分考虑重叠群序列之间存在的重复序列片段和空隙情况,将84%的重叠群完成合并,输出结果碱基序列。
其他文献
多媒体教学是一种集视听说为一体的新的教学模式,现广泛应用于各门课程的教学。本文结合教学实践,分别从影像教学、图片教学、制表教学、文字教学四个方面阐述了多媒体在《日
介绍了国际贸易中存在的环保问题以及环境贸易壁垒的概念、特点及内容、形式,概述了环境贸易壁垒对国际贸易的影响,尤其是对我国外贸的影响,举例说明了我国创外汇较高的几个
<正> 泰国是东南亚地区最早实行文官制度的国家之一。据泰国内政部人口统计,1987年泰国总人口约为5,100万人,但各类文官总数却达799,491人(不包括在国营企业内任职的271,075
本文从电磁场理论出发,导出各向同性线性电介质内、极化电荷与极化率、极化率梯度、自由电荷、以及电场强度之间的普遍关系式,进而总结出不出现极化电荷的三种情况和出现极化电
在国家政策的支持下,企业集团迅速发展壮大,随之而来的成员企业数量大、资金链条长等问题阻碍企业集团的进一步发展,如何增强集团的资金管理能力,成为集团发展的关键问题。资金集
记录了锦鸡儿属(CaraganaFabr.)植物的资源分布,并对该属66种植物(小叶锦鸡儿、柠条锦鸡儿、中间锦鸡儿、树锦鸡儿、黄刺条、锦鸡儿、红花锦鸡儿、密叶锦鸡儿、鬼箭锦鸡儿、毛掌叶锦鸡儿、白毛锦
<正>溃疡性结肠炎(ulcerative,UC)是一种病因尚不明确的慢性非特异性肠道炎症性疾病,病变通常先累及直肠,逐渐向全结肠蔓延,表现为结肠黏膜和黏膜下层连续性、弥漫性炎症[1]
本设计采用STC低功耗增强型51单片机作为控制器,采用医用高精度体温传感器和高精度数字式温度传感器进行宝宝体温和环境温度测量,一旦测量结果异常则报警提示。本设计有效解决
能源的短缺及环保的重要性,促使零排放、污染小的电动汽车日益成为全球关注的焦点,如何实现电动汽车快速、安全、高效的充电,成为业界研究的主要热点之一。移相全桥ZVS DC/DC变