基于多重PCR靶向测序的indel识别软件性能评估及pipeline搭建

来源 :东华大学 | 被引量 : 0次 | 上传用户：jjaijjai

【摘要】

：

【作者】

：

庞铂实

【机构】

：

东华大学

【出处】

：

东华大学

【发表日期】

：

2020年11期

【关键词】

：

DNA序列

【基金项目】

：

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

DNA序列的插入缺失标记（insertion and deletion），又被统称为indel，是指基因组上发生一定长度的核苷酸序列的增加或删减，是一种重要的遗传变异类型。由于indel在染色体上的分布广泛且密集、遗传模式稳定、多态性强，在法医学鉴定，遗传病诊断，肿瘤检测等领域有着广阔的应用前景。同时，下一代测序技术（Next Generation Sequencing，NGS）的迅猛发展也推动着indel检测率的提高。然而，全基因组或外显子组测序，对于大样本、小靶点的检测序是成本高昂的测序策略。基于多重PCR的靶向DNA富集是一种经济、快速、准确的测序建库策略，在大样本群体的indel检测中有着极大的潜力。本实验室在2017年开发了使用钝发夹结构优化的PCR引物来提升多重PCR靶向测序建库效率，该方法能使靶向测序深度均一化同时降低引物二聚体的发生。在数据分析工具上，目前仍未出现针对多重PCR靶向测序数据开发的indel识别软件或分析流程。在NGS数据中识别遗传变异位点的过程被称为calling。Indel calling相比于SNP calling的难度要大，因为插入/缺失的存在，本身就干扰比对排序过程，这种干扰会影响Indel calling本身的准确性。因此，当前主流indel识别软件在靶向测序数据集中识别indel性能的评估，以及自动化indel识别流程的建立，亟待研究。
　　目的：本文使用两组人类样本的多重PCR靶向重测序数据集（每组数据集的样本数>1000），旨在评估目前主流的indel识别软件在测试数据集中识别indel变异的性能，并构建且优化indel自动化分析流程。
　　方法：第一，本实验室搭建了高性能计算机（High Performance Computer，HPC）用于分析和存储海量的高通量测序数据。用于搭建HPC的硬件主要包括Intel公司的Xeon E5-2620处理器，和Supermicro公司的X10DRH主板；测试的软件分为比对软件和indel识别软件，比对软件包括BWA_MEM和Minimap2，indel识别软件包括Pindel、VarScan2、SAMtools、Sentieon Haplotyper（SH）、Sentieon Genotyper（SG）、以及Genome Analysis ToolKit（GATK）工具包中的UnifiedGenotyper（GATK_UG）和HaplotypeCaller（GATK_HC）。第二，本研究使用了两组人类样本的多重PCR靶向测序数据集，总数据量约151Gb，样本数分别为1248和2496个、样本平均reads数分别为301818和288332、重测序位点平均深度达2800以上，原始数据集经过切除接头和质量控制预处理数据量。第三，软件评估标准的纳入。主要包括运行时间、准确度、精准度、召回率与F1-measure值等指标，同时技术性重复样本被用于评估indel识别软件的一致性。第四，使用整合基因组浏览器（Integrative Genomics Viewer，IGV）手动审查样本基因型。为了客观地评价变异识别软件的分类性能，通过利用IGV软件对测序比对文件的可视化，来手动审查每个样本的indel基因型。第五，模拟变异数据集的构造与使用。使用自定义的Python程序来生成模拟indel数据集，该模拟数据集被视为相对真集，用来统计各indel识别软件对真实数据的真、假阳性率。第六，GATK关键参数调试。通过打开/关闭GATK3.X的downsampling参数，探究了该参数对识别indel基因型的影响。第七，分析流程的搭建与优化。使用Python语言将用于分析测序数据的各个组件进行封装，构建完整的分析流程。分析流程主要分为测序数据分析和变异数据报告系统两大部分。测序数据分析部分包括了测序数据预处理（如切接头、质控）、reads比对、过滤和indel识别；变异数据报告系统包括解析记录变异信息的Variant Calling Format(VCF)文件、统计测序深度、基因型数据标准化、以及计算最小等位基因频率（Minimum Allele Frequency，MAF）等。
　　结果：（1）运行时间评估发现，2款比对软件和9款indel识别软件组成的18个不同的pipeline的运行时间差异较大。就比对软件而言，Minimap2比BWA_MEM在reads比对过程中消耗的时间更少，使用Minimap2能为整个NGS数据分析在序列比对步骤中节省最多约70.85%的时间；就indel识别软件而言，运行时间最长是Pindel，最短的是GATK_UG3.7。（2）利用技术性重复样本评估各indel识别软件的一致性，结果发现不同的indel识别软件存在较大差异。其中，一致性表现最好的依次是GATK_HC3.3、GATK_HC3.7、Sentieon-Haplotyper和GATK_HC4.0。同时，还发现GATK_HC3.X的默认变异等位基因频率（Variant Allele Frequency，VAF）阈值小于0.2，会造成判定杂合子基因型的准确度降低。（3）不同软件在准确度、精准度与召回率评估上，存在较大差异。准确度最高的前三个pipeline分别是Minimap2-SH、Minimap2-HC3.7和BWA_MEM-SH，精准度最高的前三个pipeline分别是Minimap2-UG3.3、BWA_MEM-UG3.3和Minimap2-UG3.7，召回率表现最好的前三个pipeline分别是Minimap2-HC3.7、Minimap2-SH和Minimap2-HC3.3。综合性能较好的indel识别软件是HC3.3、HC3.7和Sentieon-Haplotyper（4）对比研究发现，GATK关键参数downsampling严重影响运行时间与基因型结果。关闭downsampling参数后，使用GATK_HC的pipeline运行时间显著提升，BWA_MEM-HC3.3、Minimap2-HC3.3、BWA_MEM-HC3.7和Minimap2-HC3.7的运行时间分别提升了96.0%、119.4%、236.2%和277.7%。同时还发现，关闭downsampling参数可更精准的提供VCF中记录的深度值，亦有部分样本的基因型随之改善。（5）优化并建立了自动化indel检测分析流程。使用Minimap2作为比对软件，GATK_HC3.3和GATK_HC3.7作为变异识别软件建立了自动化indel检测分析流程，并对downsampling参数及GATK_HC3.X的默认VAF阈值进行了优化，使用Python语言对各软件的命令行进行封装，同时开发了变异信息报告系统用于解析pipeline生成的VCF，从中提取等位基因、深度值、计算MAF以供信息解读和存储，最后将该分析流程和报告系统上传至Github。
　　结论：本研究首次系统性评估了多重PCR靶向测序数据中indel识别软件的性能，包括运行时间、准确度、精准度和召回率等指标。最终发现Minimap2可以在reads比对过程中比BWA_MEM节省最多70.85%的运行时间，同时GATK_HC3.3、GATK_HC3.7和Sentieon-Haplotyper在基于PCR建库的靶向测序数据中识别indel的表现优于其他变异识别软件。此外，还对GATK_HC3.X中downsampling参数和默认的VAF阈值进行了优化，使GATK的应用更适合处理靶向测序数据。基于这些结果，本研究首次开发了经过优化的基于多重PCR靶向测序数据中indel的分析流程。该分析流程主要优点包括分析速度快，中间操作简单，错误回溯方便，数据报告可读性强等优点，适用于多种不同物种的大规模群体并行靶向测序研究。该流程的开发和优化能够极大推动使用靶向测序数据检测indel这一新型遗传变异标记在分子遗传育种、孟德尔遗传疾病诊断、基因组学功能研究等领域的更深入应用。

其他文献

pH温度双响应壳聚糖纳米载药系统的构建及在乳腺癌靶向治疗的研究

如今乳腺癌已经严重威胁女性的身心健康，并且在全球其发病率一直呈上升趋势，因此对乳腺癌的医治刻不容缓。尽管对乳腺癌的发生机制和治疗手段研究了几十年，但癌症病例依然日趋增加且死亡率仍在增长。因此，开发新型癌症治疗方法，达到安全高效的癌症治疗效果，是医学研究人员们殷切的期望。如今，化疗仍然是治疗癌症常用的方法，但因为化疗药物对正常器官的毒副作用限制了其进一步应用，又因为开发新型药物投资大、周期长，且风险

学位

乳腺癌

microRNA--29对GnRH基因表达调控的表观遗传机制研究

目的：性发育是哺乳动物个体性成熟并获得生殖能力的过程，下丘脑GnRH神经元持续性脉冲式释放GnRH是启动性发育的标志事件，其中GnRH的表达会受到多种microRNA的影响调控，但其具体的分子机制尚未得到完全解析。　　本课题组在前期研究中，利用基因芯片技术检测性发育不同时期的小鼠下丘脑中miR-29家族的表达变化发现，随着性发育的成熟，miR-29家族的表达也随之增加；这一结果用实时荧光定量PCR

学位

性发育

土槿它滨和芒果醚体外抑制乳腺癌功效及其分子机制

当前，在世界范围内，乳腺癌仍是女性的第一“杀手”，其发病率和致死率仍处于持续增长中，预计未来几年会显著增加。早期乳腺癌患者是可以通过手术治疗，但术后药物治疗也是必需的辅助手段，是预防癌症复发的主要治疗措施。虽然近些年抗肿瘤药物研发取得了长足的进步，但仍存在副作用大、靶向效果差和药价高昂等弊端，仍需进一步在减毒增效、提升靶向性和降低成本等方面进行优化。　　土槿它滨（命名Gamzarpabine，简称

学位

乳腺癌

纤维素增强壳聚糖基水凝胶用于软骨组织工程支架的研究

软骨组织工程（CTE）是用于再生或修复由于疾病、创伤而受损的软骨组织的技术，它的基本原理是在体外培养、扩增软骨种子细胞于生物相容性和降解性良好的支架材料上，并在多种信号因子的调节作用下，经过一定周期形成组织工程化软骨的过程。水凝胶（Hydrogel）是广泛用于软骨组织工程的一类支架，含水量高且多孔，可支持营养物质和废物的运输以及传递机械载荷，同时可以将软骨细胞均匀地悬浮在三维环境中，保留其原有的细

学位

软骨组织支架

基于醇质体和丝素/PVA复合纳米纤维构建经皮肿瘤免疫膜及其评价研究

经皮免疫通过在皮肤表面外敷抗原和佐剂而诱导机体免疫，是一种极具应用前景的新型免疫方法。本课题组之前的研究表明，基于醇质体（Ethosome,Eth）和蚕丝素（SF）构建的复合纳米纤维经皮肿瘤免疫膜能有效的引发机体免疫应答。为了改善纳米纤维的力学性能并提升载药量，本研究在上述体系中引入聚乙烯醇(PVA)和静电喷雾微球技术，并以甘露糖化聚乙烯亚胺（PEIman）对醇质体进行修饰，构建可靶向树突状细胞(

学位

经皮肿瘤免疫膜

PRP16依赖HAC1调控UPR靶基因抵抗内质网应激的机制研究

内质网(Endoplasmic reticulum,ER)是真核细胞内蛋白质、脂类和糖类等生物大分子合成的基地。外界条件干扰导致内质网不能发挥正常的生理功能，使错误折叠或未折叠蛋白在内质网上堆积，引起内质网应激(Endoplasmic reticulum stress,ERS)，激活未折叠蛋白反应(Unfolded protein reaction,UPR)应对ERS，以恢复内质网稳态。由ERS引

学位

内质网应激

角蛋白基可注射型水凝胶的制备及生物医学应用

水凝胶是一种具有三维交联网状结构、含水量高的高分子材料，其具有的类细胞外基质（ECM）性质使其被广泛应用于生物医学领域。其中，可注射型水凝胶因具有微创性和可塑性的优点，近些年来受到了越来越多的关注。　　角蛋白是一种广泛存在于毛发中的纤维状结构蛋白，结构上的突出特点是半胱氨酸残基含量高达7~20%。基于其良好的生物相容性，角蛋白水凝胶已被广泛应用于止血，创口愈合以及神经修复等领域。然而，目前报道的角

学位

可注射型水凝胶

小鼠血脂代谢相关候选基因的功能研究

近年来，由血脂代谢异常所导致的动脉粥样硬化、冠心病等心脑血管疾病已经成为人类生命健康的重要威胁。然而，大量的研究表明，血脂代谢作为一种复杂性状，其表型受到遗传和环境等因素的影响，即个体的血脂代谢除了受到基因的调控外，还受到环境的直接作用以及基因和环境的互作。因此，对血脂代谢相关基因及其环境因素的研究对于预防和治疗血脂代谢异常相关疾病至关重要。　　在第二章中，进行候选基因和细胞模型的筛选。通过对课题

学位

血脂代谢

角蛋白单体诱导S.maltophilia DHHJ分泌角蛋白酶细胞水平研究及识别分子初步分析

目前已经发现30多种能够利用羽毛作为能源物质生长的微生物，但微生物分解羽毛的生理机制尚无明确定论导致微生物降解羽毛效率偏低。分离纯化高质量的天然角蛋白酶以及构建角蛋白酶外源表达菌株并不能显著提高羽毛降解效率。因此，研究野生菌株降解角蛋白过程及具体降解机制是提升角蛋白酶活性的关键步骤。　　使用羽毛粉M9培养基培养S.maltophilia DHHJ，羽毛粉作为氮源，SDS-PAGE电泳检测到约为10

学位

微生物生物化学

SRSF1蛋白和RP mRNA相互作用机制的研究

性发育是指个体由幼年期向成年期转变并获得生殖能力的过程，该过程的异常将会对人类的生命健康、生活质量带来极其不利的影响。遗传、环境等多种因素都会对性发育的启动产生一定的影响,本实验室前期通过定位克隆的方式在X染色体上发现了一个能够显著影响性发育启动的新基因——miR-505-3p，并在细胞模型和动物模型中验证了其对性发育启动的抑制作用，之后本实验团队对mi R-505-3p的靶基因进行预测，并进行了

学位

性发育

基于多重PCR靶向测序的indel识别软件性能评估及pipeline搭建

其他学术论文