高通量长read纠错算法的研究与实现

来源 :北京交通大学 | 被引量 : 2次 | 上传用户:qq237599512
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
第三代基因测序技术产生的PacBio SMRT长read能够有效地解决第二代测序技术read长度不足的问题,但是长read包含了 15%左右的测序错误。现在已有许多纠错算法能有效的将长read的错误率降至1%以下,但是它们舍弃了大量的未纠错的碱基,因此导致了算法的通量较低。这种损失会限制之后拼接的完整度和精确度。算法通量低的问题主要由两个原因导致,分别是read错误率高和缺乏参考数据的问题。为了解决这两个问题,我们提出并实现了 HALC,一个高通量的长read纠错算法。HALC使用了两种新方法,分别是基于相似重复区域的比对方法和基于长read支持的验证方法。基于相似重复区域的比对方法指HALC以较低的精确度将长read比对到相同物种的短read拼接成的contig上,因此,包括与长read在基因组上对应位置足够相似的其它相似重复区域,一条长read至少能够比对到一个contig区域上。基于长read支持的验证方法指HALC使用比对结果构建出一张contig图,对每一条长read,基于其它长read的比对结果和相邻contig区域之间的关系,找出最准确的比对结果,使用对应的contig区域为其纠错。尽管某些长read因为其对应的真实基因组区域没有contig覆盖而使用了它们的相似重复区域进行了纠错,该方法仍然能够使用未被拼接成contig的初始短read进一步对这些这些区域进行纠错,并对它们之间未纠错的区域纠错。在我们对HALC性能测试中,对于大肠杆菌,拟南芥和斑马宫丽鱼的数据集,HALC均能在保证同等纠错精确度的同时保持比现有算法高出6.7-41.1%的通量。并且HALC纠错后的长read能够拼接成比现有算法长11.4-60.7%的contig。
其他文献
河北省在化解过剩产能过程中要紧密结合“一带一路”战略,争取实现水泥、钢铁等行业产能最大程度的国际转移,尽最大可能减少失业人员的数量,维护河北省的经济繁荣与稳定。 H
在国家综合实力提升的过程中,我国新型的国家安全观逐渐开始向国家安全方面加注更多的重视,认为国家生存与发展最基本的保障在于安全方面。习近平总书记对我国国家安全问题倾
利用我国586个气象测站的逐日降水资料,在对每个站点极端降水过程阈值进行科学界定的基础上,揭示了近45年我国年和各季极端降水过程频数的线性变化趋势及其年际、年代际变化
社会保障的发展关系到我国全面建成小康社会的大局。近些年来,我国公共管理社会保障事业取得了一定的成就,但在制度体系、覆盖面、体制机制方面还存在一些问题。有关部门应认
这些年来,“关注学生心灵成长”,“做温暖学生心灵的教育”,是教育人常说的话。可是,我们真的做到了吗?$$在深圳,按照市教育局“疫情不结束,学生不到校上课”的要求,学生还将在较长一
报纸
<正> 很早就有人发现,外周神经逆向刺激可引起外周神经血管的扩张和血浆渗出,用染色剂注入血管与血浆蛋白结合后随血浆渗出可在被刺激的神经支配区域皮肤上
在实际工作中,难免会遇到要求求出若干个产品特征参数的最大差异在规定范围内的概率,如若干个火工品发火时间的最大差异小于或等于规定要求的概率;若干台发动机推力的最大差
建立在基岩上的混凝土水工建筑物,岩石与混凝土交界面往往是结构最为薄弱的环节。水工建筑物不仅受到静荷载的影响如自重等,也受到循环荷载的影响,如潮汐等,而在静载及循环荷
SARS是一种急性呼吸道疾病 ,具有很强的传染性 ,已波及3 1个国家和地区。我院是山西省首批收治SARS病人的医院 ,急诊科作为医院的第一道窗口 ,从 2 0 0 3年 3月 2 4日— 2 0
本文联系5.12四川大地震的相关新闻报道,重点分析灾难报道中的情感信息传播.文章认为,灾难情境构建了大众的情感期待,强化了其情感需求.也使传媒所传达的情感信息格外丰富强