论文部分内容阅读
非模式生物的遗传资源相对匮乏,在这些物种中开展基因组范围内的遗传学研究仍然非常困难。简化基因组技术可以视为非模式生物的遗传学研究的有利工具。该技术主要是通过降低基因组的复杂度来降低测序成本,被广泛的应用于遗传图谱构建、数量性状定位、群体遗传学分析、系统进化分析和辅助基因组组装研究中。1、“桥接法”辅助基因组组装策略本研究提出了一种“桥接法”基因组组装策略:首先将2b-RAD分型技术引入传统的Happy实验构建高密度的2b-RAD图谱,借助该图谱可以对已有的Contigs序列进行进一步的升级。为了实现这一想法,我们不仅优化了传统的Happy实验,同时还还提出了结合随机抽样技术的层次组装算法。模拟数据显示该组装算法能够将拟南芥全基因组的35,618个BsaXI标签组装成40个Contigs,校正后的N50大小为4.1Mb(克隆长度为40kb,样本量为100);将人类1号染色体95,139个BsaXI标签组装成16个Contigs,校正后的N50大小为14.4Mb(克隆长度为40kb,样本量为100)。实际数据分析显示层次组装算法可以将拟南芥基因组内34,753个BsaXI标签组装成554个群,校正后的N50大小为224kb。在连接Contig方面,原始N50大小为54.1kb的Contig通过该软件其N50可以提升到815kb,N50大小为183.4kb的Contig可以提升到1.03Mb,N50大小为552.7kb的Contig可以提升到3.7Mb,而且Contig之间连接的准确率在98.1%-98.5之间。该低成本的辅助基因组组装方案将在海洋生物复杂基因组组装项目应用中发挥重要作用。2、无参照基因组分型算法开发和应用当前简化基因组技术的标记分型软件存在的缺点是:1)仿照有参照基因组的分型方法,无法排除基因组中重复序列对de novo分型造成的干扰;2)忽略了对显性标记的分型。本研究提出了一种混合泊松(正态)分布模型对来自重复序列区域的序列进行概率识别,并将该模型加入到已有的标记分型软件中形成新的分型算法iML。通过拟南芥和水稻基因组模拟数据分析表明iML方法比传统的ML算法假阳性率低12%-23%。通过拟南芥2b-RAD数据和三刺鱼的RAD-seq数据的验证表明iML方法比ML分型算法假阳性率低7%-17%(测序读长为30bp)。此外本研究开发了RADtyping软件,其不但整合了iML共显性标记分型算法,同时给出了处理显性标记的统计公式。通过拟南芥拟测交F1群体模拟数据显示当亲本和子代的平均测序深度为20x时,两类型标记的分型准确率可达98%。通过实际的两套重复文库分型结果发现,共显性标记的分型一致性达96%。通过Sanger法验证显示共显性标记的分型准确率为96%,显性标记的准确率为97%,这充分说明了RADtyping在标记分型上具有较高的准确率。3、2b-RAD技术在全基因组选择中的应用评估全基因组选择技术实施的重要条件之一是要有大量的基因组范围内的遗传标记。2b-RAD技术虽然在分型成本上具有明显的优势,其提供的标记密度是否满足水生生物全基因组选择育种需求仍然是未知的。本研究根据虾夷扇贝的基因组特征(包括基因组大小、杂合率、BsaXI酶切位点分布等)模拟了虾夷扇贝的育种群体。考察了三种不同标记密度HD-SNPs(芯片密度),MD-SNPs(所有BsaXI酶切位点),LD-SNPs(带有选择性碱基的BsaXI位点)对全基因组选择育种值估计准确率的影响。分析表明在不同的遗传背景下MD-SNPs比HD-SNPs准确率略低(<3%)。在遗传力在0.3~0.5左右时LD-SNPs在育种值准确率估计上和MD-SNPs相当,但是标记的分型成本仅为后者十分之一。随后利用来源于3个家系的349个虾夷扇贝育种群体,对壳高、壳长和壳宽三种性状进行全基因组选择评估。家系间的育种值估计准确率在0.15-0.3之间,家系内的育种估计准确率在0.23~0.36之间。上述分析表明2b-RAD技术是水生生物全基因组选择项目中标记分型的平台首先。