基于长短读长和参考基因组的组装错误检测算法的研究

来源 :北京交通大学 | 被引量 : 1次 | 上传用户:lxm1230520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
第二代测序技术产生了短读长,由短读长拼接而成的重叠群可能存在组装错误的问题,由此可能会导致下游分析复杂化,甚至会造成不正确的分析结果。幸运的是,随着越来越多的物种序列被测定,使用相似物种的参考基因组去检测组装错误变的可行。此外,长读长的使用也越来越广泛,也可以用来检测组装错误。本文提出了一种新的算法ReMILO,它是一种参考基因组辅助的算法,同时使用短读长和长读长数据。ReMILO根据使用数据的不同,分为两个模块:(1)基于短读长和参考基因组的组装错误检测模块。ReMILO首先将短读长同时比对到参考基因组和重叠群上,然后根据比对结果构建一种新的数据结构红黑多位置de Brujin图来检测组装错误。这种数据结构是de Brujin图的一种变体,它将短读长在重叠群和参考基因组上的位置信息引入到图中的节点里,并且通过节点的合并重新拼接正确的重叠群,重叠群上的每个位置都可以在图中找到对应的节点。通过检查相邻节点间的关系,组装错误可以被检测出来。(2)基于长读长的组装错误检测模块。本模块的第一部分是对长读长纠错。MECAT是一个快速的长读长纠错软件,但是它的通量很低。ReMILO对MECAT做了进一步包装以实现快速高通量纠错。ReMILO基于MECAT的长读长比对信息,挖掘更多的比对结果以提高通量,并且去除错误的比对结果以提高精确度。此外,ReMILO还会使用已经纠错的长读长区域对未纠错的部分纠错,这可以进一步提高通量。本模块的最后一部分是检测组装错误。ReMILO将重叠群比对到纠错后的长读长上面,根据重叠群和长读长之间的差异去检测更多的组装错误,提高ReMILO算法的敏感度。在人类基因组第十四条染色体上的性能测试表明,ReMILO比现有算法可以多检测到0.5-13.3%的全局组装错误和2.5-15.5%的局部组装错误,并且错误的检测结果要低0.1-12.4%。在长短读长混合组装而成的巴氏酵母菌上的实验结果表明,ReMILO也可以比现有算法多检测到1.1-14.2%的全局组装错误和0.6-23.4%的局部组装错误。多个数据集上的实验结果说明了 ReMILO在检测组装错误时具有良好的敏感度和精确度。
其他文献
<正>1发病情况2014年11月5日,一养殖场的1 200羽110日龄京粉2号蛋鸡发病,表现为呼吸困难,张口伸颈,精神萎靡,食欲下降,个别食欲废绝,当天死亡3只,用恩诺沙星、阿莫西林连续饮
VFB是由西北农林科技大学无公害农药研究服务中心以马齿苋(Portulaca oleraceaL)等几种植物材料提取加工而成的一种植物源抗病毒剂。前期研究表明,VFB对多种作物上的多种病毒
[目的/意义]分析美国军工企业规模经济和范围经济,为促进我国军民融合实践发展提供参考借鉴。[方法/过程]运用超越对数成本函数估计2006-2016年间美国主要军工企业的成本,测
随着文山经济的发展,保险业特别是车辆保险业务也得到相应发展,2015年文山州全辖区车险保费规模为7.46亿,2016年为9.2亿,2017车险规模发展到了 10.8亿,车辆保险业务快速提升
期刊
清同治十三年三月二十二日,日本人入侵台湾南部的琅,发动"牡丹社之役"。清廷以船政大臣沈葆桢为钦差大臣办理台湾等处海防,《中日台湾事件专约》签订后沈葆桢又奉旨负责善后
甘肃庆阳市南部地区的北石窟寺群,是甘肃省著名的四大石窟之一,总共有五个组成部分,包括楼底村一号窟、石崖东岸石窟、石道坡、寺沟石窟以及花鸨崖。北石窟寺群始凿于北魏,后
2015年新修订的《行政诉讼法》实施,以法律的形式将行政机关负责人出庭应诉制度明确下来,三年后的2018年,《最高人民法院关于适用〈中华人民共和国行政诉讼法〉的解释》出台,
现阶段,上市公司在财务分析上最主要的还是采用杜邦分析体系,但在具体的应用过程中还存在一些问题。文章针对上市公司财务分析体系的改进优化,首先全面介绍了杜邦财务分析体
介绍现代企业制度的概念、特点以及我国国有企业建立现代企业制度的历史进程,介绍现代医院制度的历史由来、概念和主要内容,讨论建立现代医院制度需解决的问题,以及如何借鉴