针对新一代测序技术的序列拼接算法研究

来源 :福建农林大学 | 被引量 : 3次 | 上传用户:aiming7006x
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,新一代测序技术不断涌现和发展。与费用高昂的Sanger测序技术相比,新一代测序技术不仅成本低,而且速度快,为完成更多基因组测序计划提供了可能。然而,新一代测序平台测得的序列片段长度短、数据量大、错误率较高,这给序列拼接带来了严峻的考验。因此,针对新一代测序技术产生的错误率较高的高通量短序列数据,研究高效的数据处理方法和序列拼接算法具有重要的意义。本文在分析新一代测序技术和现有序列拼接技术的基础上,针对新一代测序数据错误率高的特点以及当前广泛运用于高通量短序列拼接的de Bruijn图拼接技术对测序错误敏感的问题,以提高拼接效果为目标,对新一代测序数据的处理和拼接展开了一定的研究,提出了一种能够有效修正序列片段中错误碱基的测序错误校正方法。该方法首先通过构造后缀数组(suffix array)寻找序列片段的匹配信息,然后通过多序列比对修正序列片段中可能存在的错误碱基。实验结果表明,使用该方法对序列片段进行预处理能够大大提高序列拼接效果。另外本文针对新一代测序数据数据量的特点以及de Bruijn图序列拼接技术对内存要求较高的问题,以降低序列拼接对内存的要求为目标,提出了一种能够有效降低拼接数据量的序列片段并行聚类方法。该方法对序列片段进行相似性聚类,在聚类过程中采用空位种子索引(spaced seed indexing),具有较高的并行性,容易通过OpenMP实现聚类的并行化,能够大大减小搜索空间和搜索时间。实验结果表明,该方法能够在保证序列拼接效果的前提下对高通量短序列片段进行有效聚类,剔除冗余的序列片段,减少数据量。
其他文献
[目的/意义]分析美国军工企业规模经济和范围经济,为促进我国军民融合实践发展提供参考借鉴。[方法/过程]运用超越对数成本函数估计2006-2016年间美国主要军工企业的成本,测
随着文山经济的发展,保险业特别是车辆保险业务也得到相应发展,2015年文山州全辖区车险保费规模为7.46亿,2016年为9.2亿,2017车险规模发展到了 10.8亿,车辆保险业务快速提升
期刊
清同治十三年三月二十二日,日本人入侵台湾南部的琅,发动"牡丹社之役"。清廷以船政大臣沈葆桢为钦差大臣办理台湾等处海防,《中日台湾事件专约》签订后沈葆桢又奉旨负责善后
甘肃庆阳市南部地区的北石窟寺群,是甘肃省著名的四大石窟之一,总共有五个组成部分,包括楼底村一号窟、石崖东岸石窟、石道坡、寺沟石窟以及花鸨崖。北石窟寺群始凿于北魏,后
2015年新修订的《行政诉讼法》实施,以法律的形式将行政机关负责人出庭应诉制度明确下来,三年后的2018年,《最高人民法院关于适用〈中华人民共和国行政诉讼法〉的解释》出台,
现阶段,上市公司在财务分析上最主要的还是采用杜邦分析体系,但在具体的应用过程中还存在一些问题。文章针对上市公司财务分析体系的改进优化,首先全面介绍了杜邦财务分析体
介绍现代企业制度的概念、特点以及我国国有企业建立现代企业制度的历史进程,介绍现代医院制度的历史由来、概念和主要内容,讨论建立现代医院制度需解决的问题,以及如何借鉴
第二代测序技术产生了短读长,由短读长拼接而成的重叠群可能存在组装错误的问题,由此可能会导致下游分析复杂化,甚至会造成不正确的分析结果。幸运的是,随着越来越多的物种序列被测定,使用相似物种的参考基因组去检测组装错误变的可行。此外,长读长的使用也越来越广泛,也可以用来检测组装错误。本文提出了一种新的算法ReMILO,它是一种参考基因组辅助的算法,同时使用短读长和长读长数据。ReMILO根据使用数据的不
湖北恩施州高山地区生长着一种高富硒植物——碎米荠(Cardamine)。该植物不仅硒含量高,而且是一种药食两用植物。为了开发利用碎米荠植物资源,本文以湖北恩施碎米荠干制粉末