面向长基因组序列片段的快速比对算法研究

被引量 : 0次 | 上传用户:hexingjie1980
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着新一代测序技术的不断发展以及基因组拼接方法的不断成熟,生物信息领域产生了越来越多的长基因组序列数据(测序数据和拼接片段),其中太平洋生物科技公司(PacBio)的单分子测序实时测序技术(Single-Molecule real-time,SMRT)更是将测序片段的平均长度增加到了接近10000bp。这些长基因组序列数据的产生对于生物信息领域的很多问题都将具有非常重要的研究价值,其中就包括结构变异检测等相关领域问题。基于长序列数据进行结构变异检测的直接方法就是对长序列数据进行序列比对,将长序列映射到参考基因组上,通过对所得到的比对结果进行分析,便可以得长序列中所包含的结构变异信息。然而,现有的长序列比对工具在处理包含大型结构变异数据时,其运行速度以及比对效果都存在着各式各样的缺陷,因此开发一款能够处理大型结构变异同时高效、精确的长序列比对工具是一项非常迫切并且有意义的工作。本文提出了一个新型的长序列快速比对工具LSAT。LSAT针对长基因组序列片段以及染色体结构变异的生物学特点,采用了一些在处理长序列比对时具有明显优势的比对策略,包括选种阶段的无交叠的长种子选取策略以及在种子筛选阶段采用的对于结构变异检测具有更高敏感性的最优覆盖连接模式,同时通过采用序列拆分比对的方法来获得结构变异的精确边界位置。实验结果表明,LSAT与现有的比对工具包括BWA-SW、YAHA等相比具有速度上的明显优势,同时在对于结构变异的检测方面,也显示出了更高的敏感性和准确性。
其他文献
目的:胰腺实性假乳头状瘤是一种少见的交界性肿瘤,好发于年轻女性,预后好。在临床表现、诊断、治疗和预后上,胰腺实性假乳头状瘤具有与其它胰腺肿瘤不同的特点。近年来该病的报道
随着我国公路交通事业的发展,道路交通安全问题日益成为人们关注的焦点。交通事故统计显示,因载重汽车导致的交通事故比例越来越大,且死伤率和财产损失巨大。在风、雨、雪、雾、
为提高汽车侧翻预警算法的实时性及动态过程侧翻预警的精度,提出基于动态稳定性的汽车侧翻预警算法。考虑车轮侧倾外倾和侧倾转向及悬架变形外倾和变形转向对轮胎侧偏特性的
企业社会责任已经成为社会公众十分关注的热点话题,企业应该履行社会责任已经是毋庸置疑的事情,但从企业盈利的本质出发,它们更关注的是履行社会责任对自身的生存和发展产生怎么
本研究运用抽样调查法、比较法等研究方法,采用症状自评量表、罪犯个性分测验量表、领悟社会支持量表,对监狱服刑人员的心理健康状况、个性特征、社会支持的现状、原因和三者之
十九世纪初以来,英语世界对李渔小说的翻译与研究,至今已有一百多年历史。几经沉浮,李渔小说如今在西方汉学领域已确立经典的地位。本文以全面而详实的资料系统回顾了这个曲
<正>9月6日——7日,俄罗斯OTTC认证官员Alexey Semenikhin和Konstantin Spryskov到东风小康双福生产基地进行现场审核。东风小康进出口公司总经理张兴燕向两位认证专家介绍了
会议
我国煤层普遍具有低透气性的特点,使得煤层瓦斯抽采效率低下,严重影响煤矿安全生产。针对五阳煤矿高瓦斯低透气性煤层瓦斯抽采难题,提出了水力压裂卸压增透瓦斯抽采技术。采用理
随着光伏发电应用的普及,光伏组件使用过程中的功率损失问题以及实际发电量受到了越来越多的关注。智能接线盒研制成为了光伏发电的研究热点,并且取得了一定的成果。最大功率点
随着我国公路基础设施建设的快速发展,交通量也逐年增加。在有限的道路资源与不断增加交通量的双重作用下,公路基础设施安全问题日益突出。公路基础设施包括各等级公路、桥梁、