基于BWT的配对测序数据重叠群生成算法研究与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lixiaobo59178
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自人类基因组计划完成以来,人们逐渐意识到获取生物完整基因序列对于探索生命本质的重要性,这促使生物信息学迅速发展。随着新一代测序技术的不断发展,现有测序数据不仅仍具备高通量、错误率较高等特点,还出现了读长变长,包含配对信息的变化。现有软件在序列拼接过程中对新增信息的利用不足。因此,针对目前测序数据特点开发一款新的序列拼接软件成为生物信息学迫切的要求。利用从头测序技术获取基因序列需要经历重叠群生成、支架组装两个过程,本文所探讨的是从头测序中重叠群生成的过程。重叠群的质量将直接影响最终序列拼接的结果,因而重叠群生成算法的研究具有十分重要的意义。本文提出了一种具有模糊匹配功能的重叠群生成算法。该算法首先利用BWT索引寻找有效交叠read集合,之后以聚类方式寻找区域最优k-mer,并利用决策树搜索策略将连续k-mer组建成模版read以完成重叠群延伸,最后充分利用配对信息保证重叠群质量。该方法选择的延伸read能够在一定程度避免测序错误干扰,并能够充分利用测序数据信息。最后,本文与已有的基于BWT的贪心方法及基于De Bruijn图的SOAPdenovo2程序进行对比。实验结果表明,本文相比原有的贪心方法,在拼接结果和效率上都有所提升。与SOAPdenovo2相比,本研究内存占用更低,产生的重叠群具有更高的可信度,将为后续基因拼接提供更为可靠的输入信息。
其他文献
月球探测经历了几十年的努力,积累了大量的数据资料,而且是通过遥感探测手段获得的。Apollo时期载人登月的成功实现为进一步认识月球提供了珍贵的样品和直接测量数据,由阿波
伴随着经济的快速的发展,我国的石油开采量日益增加,随之而来的环境污染问题日渐显著。近年来,植物修复技术被越来越多的应用在修复石油污染土壤等领域,但关于植物是如何耐受
第一部分 来源于Caldicellulosiruptor bescii DSM6725菌株的嗜热多聚半乳糖醛酸酶的表达、纯化和结晶学研究果胶酶是以水解半乳糖醛酸由α-1,4糖苷键聚合而成的多糖链为底物
本研究以转碱蓬脱水素基因(DHN)的烟草、野生型烟草为材料,分别在DNA分子水平,蛋白表达水平及生理水平对转基因植株进行了检测,以期获得可遗传的转碱蓬脱水素基因(DHN)植株,
氢型丝光沸石(H-MOR)催化二甲醚(DME)羰基化反应是由合成气经二甲醚制乙醇工艺的重要步骤,其关键在于提高DME转化率和H-MOR的稳定性。金属元素改性是提高H-MOR催化活性和寿命的重
本研究实验材料为强耐寒性植物新疆沙冬青,对编码耐寒相关蛋白酶的AnGPAT基因进行分子克隆及序列分析,构建了转入AnGPAT基因的大肠杆菌原核表达载体、毕赤酵母真核表达载体并
我们知道正则半群凭借其丰富的正则性在半群代数理论中占据重要地位,但是对众多图的自同态正则性难以给出一般性的回答,所以针对具体图类给出具体答案成为刻画自同态正则图的
本文研究了C*-代数中的由林华新提出的一种正元比较.总结了这种正元比较的基本性质及其等价定义.作为应用,我们证明了迹拓扑秩的几个等价定义.
辐射空调系统以其在节能性、舒适性和美观性方面的良好表现得到广泛关注,但地板辐射供冷的研究和应用起步较晚,国内外学者在其室内环境及系统负荷方面的研究仍不完善,且对地板辐射供冷技术在我国寒冷地区的应用适用性评价较为缺乏。本文采用理论分析、实验研究与仿真模拟相结合的方法,对地板辐射空调系统的室内环境特征及负荷特性与建筑空间设计参数的关系进行研究,并从舒适性和节能性角度对地板辐射供冷技术在寒冷地区的性能表
随着基因组数据的增长、DNA寡核苷酸合成与芯片技术的进步,寡核苷酸微阵列成为了最广泛使用的高通量分子工具之一。DNA微阵列的检测精度在很大程度上取决于DNA探针设计的好坏