论文部分内容阅读
克雷伯氏肺炎杆菌(Klebsiella pneumoniae)是一种革兰氏阴性细菌,目前主要用于生产2,3-丁二醇和1,3-丙二醇等化学品,同时可以代谢合成3-羟基丙醛、乙醇、乙酸、乳酸等。Klebsiella pneumoniae具有广阔的工业化应用前景。因此得到Klebsiella pneumoniae的全基因组序列,对其代谢途径进行研究及分子改造具有重要的意义。
近几年来,新一代高通量测序技术发展迅速,已经逐渐成为研究基因组的重要手段。但是由于其Reads短、精度低和数据量大等缺点也为它用于生物学的研究带来了不便。因此,如何从高通量测序数据中筛选出有价值的信息是生物信息学研究的热点之一。本文利用目前高通量测序技术中广泛使用的Illumina/Solexa测序技术,对实验室分离到的一株Klebsiella pneumoniae KG2进行全基因组测序,以此建立工作平台开展对测序后数据的拼接和分析研究,探究高通量测序数据处理的规律性。进而获得Klebsiella pneumoniae的全基因组序列。
本实验取得以下几个主要结果:
1、本实验针对抽提基因组DNA不纯,有质粒DNA污染的问题,提出了先去除质粒再测序的设想,尝试了采用高温和消除剂消除质粒的方法。结果表明Klebsiella pneumoniae的最佳质粒消除条件为:采用培养温度45℃,消除剂SDS浓度为0.3%复合条件,质粒消除率可达41.7%。最终筛选到了消除质粒的衍生菌株,为下一步测序及拼接等提供了适宜的材料。
2、本实验选择了目前比较常用的三种拼接软件Velvet、AbySS、SOAPdenovo对测序数据进行拼接比较,并对同一软件的不同拼接参数进行拼接优化分析,以期寻找最适的拼接软件和最适拼接参数,为以后的研究提供参考借鉴。本实验结果显示Klebsiella pneumoniae基因组的最适拼接软件为Velvet,最适拼接参数K-mer为27。
3、基于目前大多数软件都是从头拼接,对于如何进一步拼接contigs仍然是个问题。本实验提出了利用参考基因组指导拼接的新思路。研究了利用参考基因组序列将contigs进行重排形成scaffold,然后根据重叠序列进行拼接的新方法,最终得到了最佳的scaffold(number=104,N50=98160bp)。该方法为序列拼接的研究提供了新手段。
4、为了找到与目的菌最相似的参考基因组,提高参考基因组重排contigs的准确性,本实验通过NCBI在线BLAST搜索,构建16SrDNA进化树和比较Mapping率,找到了最佳的参考基因组Klebsiella pneumoniae KCTC2242。
经过研究本实验得到了绝大部分的Klebsiella pneumoniae菌株KG2的基因组序列,为后续对及代谢途径的研究和分子改造奠定了基础。
在DNA测序手段还没有突破性进展的前提下,全基因组序列拼接仍然是生物信息学领域重要的研究内容,本文对全基因组的序列拼接软件做了详细的分析研究,并就参考基因的筛选和质粒基因污染的问题提出了具体的解决方案,为今后研究人员从事序列拼接提供参考借鉴。