二三代基因组混合组装流程的搭建与序列拼接并行优化方法研究

来源 :昆明理工大学 | 被引量 : 2次 | 上传用户:lovelyhuanhuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物信息学的飞速发展,当今世界已经迈入生命科学和信息科学的时代。第三代测序技术因为其读长长的特点,彻底的革新了基因组学。测序技术发展的同时,生物信息学面临了更多的挑战,越来越多的测序数据的积累意味着需要更多的计算资源来满足其分析需求,而新的测序技术产生新的特征的序列又势必需要新的序列组装技术来应对。本文从上述挑战出发,研究二三代混合组装策略和序列拼接并行优化方法,以此满足科研人员对于二三代基因测序数据分析的需求,也可以在序列拼接过程中能够保证更好的节约计算资源,主要开展以下3个工作。首先,生物数据数据量大且资源多样,对数据进行处理必须以来强大的计算资源。为满足课题需求,建立生物信息学平台成为必须。本文中搭建了一个基于Rocks集群系统的生物信息学平台(Rocks Cluster),充分利用现有的集群计算技术来整合计算资源,为生物信息学的研究提供了方便快捷且强有力的数据处理平台。其次,测序技术日新月异,推动了基因组学的发展。本文分析三代测序数据具有读长长、错误率较高的特点和二代测序数据读长短但错误率低的特点,于生物信息学平台搭建了二三代基因组混合组装流程,充分利用了三代测序技术读长长和二代测序技术错误率低的优点,以二代测序数据对三代测序数据进行纠错,再以纠错之后得到的三代数据进行基因组装,以达到更好的拼接效果。最后,考虑到在基因混合组装过程中纠错环节内存消耗较高,如果对基因组较大的物种进行基因组装,现有平台无法满足其内存消耗需求。为了解决这个问题,本文分析了组装过程中内存使用情况,并根据实验室的生物信息学平台结构特点设计了解决方案。一是利用GlobalArray虚拟和管理不同节点的内存,将数据和计算分开运行;二是设计进程并行优化方法用来缓解单节点的内存压力。同时为了寻求更好的解决方案,以基因混合组装纠错方法本身所用算法为突破点,基于二代三代数据混合拼接的思想,即考虑首先用二代数据进行拼接得到正确率高的序列拼接图,然后用三代测序数据比对到图上,利用三代测序数据读长长的优势确定图上路径的选择,以达到简化图的目的,这样就避免了纠错环节。
其他文献
本文以实证研究为基础。通过调研中美26所高校的在校中国学生,从对经济体制的认识和对经济体制运行结果的评价两个层面来展示不同制度环境下大学生群体的经济体制价值观。通
目的:观察热敏灸法治疗慢性疲劳综合征的临床疗效。方法:在明确辩证的基础上,运用热敏灸法,取穴印堂、神门、太溪、太冲、三阴交、足三里等,将63例慢性疲劳综合症患者随机分
目的了解野生鸟类新城疫病毒(Newcastle disease virus,NDV)感染情况,分析NDV的基因型与遗传变异特点。方法采用HA试验和RT-PCR检测野生鸟类新城疫病毒感染情况,对新城疫病毒
恶性肿瘤患者长期住院卧床,百脉流通不畅,血不利则咸水津,痰浊瘀塞也可想见《伤寒论》第395奈言:“大病差后,从腰以下有水气者,牡蛎泽泻散主之”无疑是应对之方《本经疏证》对本方
期刊
<正>素质教育强调教育本质的主体性,其中尤其强调发挥学生学习的积极主动性,在"两课"教学中,如果学生失去了学习的内在热情与主动精神,就难以使"两课"教学的内容为学生真正掌
会议
贾宝玉是中国古典文学史上一个典型的孤独者形象,为了摆脱孤独,他不断地寻求同类。从美学角度讲,甄宝玉则是为了证明同类之不存而被创造出来的人物。贾宝玉是追求理想招致毁
近日,在山东省聊城市东阿县,华通小毛驴养殖公司经理王呈伟告诉记者:“咱正靠着养驴致富呢!现在,建设规模化养驴场,政府有补贴;东阿阿胶公司担保,能拿到银行的贴息贷款,能提供良种驴
报纸
金刚石具有一系列优异的物理化学性能,例如:硬度大、热导率高、化学性能稳定、光学性能好等。这些都是其他材料无法比拟的优异性能。金刚石由于具有特殊的晶体结构,因而成为了自然界的已知材料中硬度最高的矿物材料。因此,金刚石具有广泛的应用前景,它是推动科学技术发展的理想矿物材料。但是,天然的金刚石不仅产量小、价格高,而且品质差异也很大,所以天然的金刚石已经无法满足,甚至严重阻碍了人们对金刚石的开发利用。微波
目的:探讨和评价血清学自身抗体的检测对炎症性肠病(inflammatory bowel disease,IBD)诊断的临床价值。方法:收集2017年2月至2017年8月浙江大学医学院附属邵逸夫医院就诊并确
新课改已进行十年,但课改之路并没有那么顺利,一些教育问题仍然没有得到解决,新课改倡导的一些教学方式也难以融入到日常教学中去,但一种新的教学模式——翻转课堂,却为如何