论文部分内容阅读
近几年来,基于多重置换扩增的全基因组扩增技术已经得到了广泛的运用。该技术使用的phi29 DNA聚合酶具有起始DNA需求量低、保真度高、校读性好、产物片段长并且偏向性低等优点,克服了传统扩增技术的一些缺陷。然而,phi29DNA聚合酶的缺点却很少被人报道,一定程度上掩盖了这种酶也有缺点的事实。本研究采用数据挖掘的方式,在2013年一项研究使用的上百GB二代测序数据中,针对phi29 DNA聚合酶扩增产生嵌合序列这一特性,从嵌合序列的比例、种类、分布特点等方面对嵌合序列进行系统的统计分析,尝试从热力学、动力学的角度解释嵌合序列的产生。此外,本研究还针对嵌合序列在结构上的特点,通过实验和生物信息分析证明其在人类全基因组单体型组装上具有潜在的应用价值。 本研究获得的主要结果包括: (1)开发了一套基于Illumina HiSeq测序平台的嵌合序列分析流程,可以实现嵌合序列总数、在测序数据中所占比例、各级各类嵌合体数量的统计。在这一批phi29 DNA聚合酶扩增产生的测序数据中,嵌合序列比例达到了统计显著水平(~6%); (2)嵌合序列在常规序列比对中属于废弃数据,针对这一特点,本研究中开发了一套实现嵌合序列重复利用的小型流程,并将该流程不断简化、改善,从而能够实现嵌合序列的再利用,提高测序数据的利用率; (3)针对嵌合序列结构上的两个关键统计指标,在数据分析流程中配合画图软件进行制图,呈现嵌合序列的分布情况,从而在热力学、动力学的角度尝试解释嵌合序列的产生,创造性地从二代测序数据分析的角度阐释phi29 DNA聚合酶的特性; (4)通过分析两种不同大肠杆菌的phi29MDA测序数据,本研究证实组成一条嵌合序列的两部分片段在模板DNA分子水平上具有高度同源性。由于针对嵌合序列两部分片段之间距离的统计已经发现,片段之间的距离最长可以达到5kbp以上,这使得嵌合序列在单体型构建上具有一定的应用价值,能够在传统方法组装结果的基础上进一步提高N50、scaffold平均长度等组装结果指标。