论文部分内容阅读
家蚕(Bombyx mori)作为鳞翅目昆虫的代表,是由野桑蚕经过五千年的人工选择完全驯化而来。由于其重要的经济价值和文化价值,在中国的历史发展过程中,具有不可替代的地位。为了满足人们日益增长的蚕丝制品需求,迫切需要对家蚕进行育种和研究。近年来,随着高通量测序技术的不断发展和分子生物学研究的不断深入,通过挖掘大量的遗传信息,进行定向育种的分子育种策略为家蚕遗传育种和分子功能研究提供了新思路。基因组序列作为家蚕分子育种研究的重要参考,其高质量的组装和注释对于全面准确地了解家蚕遗传物质,并与其他昆虫进行比较基因组学研究至关重要。但是,当前的家蚕基因组仍然包含未测序区域和错配,影响着功能基因组研究的效率和准确性。本研究以家蚕Dazao为对象,通过采用三代长片段测序(PacBio)与染色质构象捕捉技术(Hi-C)结合的策略,组装完成了染色体级别的高质量基因组(SilkDB3.0),并结合转录组数据,获得了更全面的基因组注释文件。然后,基于SilkDB 3.0基因组,对家蚕进行转录组、3D基因组、泛基因组和比较基因组四个方面的多组学整合分析。本研究为家蚕分子育种研究提供了新的数据基础,有助于了解家蚕的蛋白质功能和基因的表达情况,同时能够帮助比较家蚕品种间的遗传变异情况。主要研究结果如下:1.家蚕SilkDB 3.0基因组的组装我们通过PacBio测序结合Hi-C技术对家蚕Dazao组装完成了SilkDB 3.0版本基因组。SilkDB 3.0基因组由28条染色体组成,大小约为468.3 Mb,contigs的N50达到17.6 Mb,N75达到15.1 Mb,具有较好的连续性,相比之下,SilkDB 2.0版本基因组大小约为432 Mb,contigs的N50为4 Mb,contigs的N75为1.6 Mb。BUSCO评估结果显示,SilkDB 3.0和SilkDB 2.0基因组分别预测到核心昆虫基因集“insecta_odb9”中98.1%和92.3%的基因,其中,单拷贝基因比例分别占97.2%和92%。基于Hi-C数据绘制的染色体相互作用热图也呈现出较高的一致性。因此,SilkDB 3.0基因组在基因完整度和染色体序列顺序与方向都达到了较高的准确性,能够为家蚕的功能基因组学研究提供更好的数据基础。2.家蚕SilkDB 3.0基因组的注释基于高质量的SilkDB 3.0基因组,本研究结合253个样本的家蚕RNA-seq数据,共注释得到16069个高质量基因。不仅如此,SilkDB 3.0还使用KO,GO,KOG,Pfam和KEGG ENZYME对蛋白质序列进行注释,获得了更多的基因功能注释信息。并且,我们还对家蚕蛋白质的亚细胞定位进行了预测,同时也对蛋白质的三维结构也进行了预测。为全面了解家蚕基因表达量变化,我们分析得到了家蚕基因表达谱(包含10个时期和16个组织)和加权共表达网络(结合STRING数据库中的蛋白质-蛋白质互作数据)。以PRMT5基因为例(Protein arginine methyltransferase 5),表达谱显示该基因在家蚕卵巢中高表达,并且通过共表达网络预测得到36个共表达基因,其中,STRING数据库得到的蛋白质-蛋白质数据显示,PRMT5蛋白有6个关联蛋白。本研究中得到的基因注释文件、基因表达谱和基因共表达网络,为家蚕的基因功能研究提供了更全面的数据基础,有利于挖掘家蚕的潜在功能基因。3.家蚕比较基因组学研究本研究对家蚕、斜纹夜蛾、粉纹夜蛾、赤拟谷盗、埃及伊蚊和黑腹果蝇六种昆虫的基因组基因进行了Pfam结构域注释,并根据Pfam结构域绘制了系统发育树,同时,也对家蚕和斜纹夜蛾进行了共线性分析。直系同源物和旁系同源物之间的明显区别对于构建基因的进化关系和新测序基因组功能注释至关重要。我们对家蚕、斜纹夜蛾、粉纹夜蛾、赤拟谷盗、埃及伊蚊和黑腹果蝇六种昆虫进行了直系同源簇分析,结果显示六个物种共享4765个核心直系同源蛋白。为了更好地研究家蚕和其他五种昆虫之间的蛋白质的功能和进化关系,本研究绘制了直系同源基因簇对应的蛋白质网络,并基于直系同源蛋白绘制了系统发育树,同时对直系同源蛋白的氨基酸基序进行了统计。以家蚕PRMT5蛋白(BMSK0008583.1)为例,从蛋白质网络中可以看出,家蚕BMSK0008583.1蛋白与粉纹夜蛾TRNI03335-PA和斜纹夜蛾SLIT00777-PA的相似度更高,同时系统发育树可以看出,家蚕、粉纹夜蛾和斜纹夜蛾相较于另外三种昆虫(赤拟谷盗、埃及伊蚊和黑腹果蝇)更早地从进化枝中分化出来。4.家蚕泛基因组学研究为了了解不同家蚕品系之间的变异信息,我们收集了世界范围内具有代表性的163份家蚕重测序数据。以SilkDB 3.0基因组为参考背景,全面挖掘单核苷酸多态性(SNP)和插入缺失位点(In Dels)等变异信息,并绘制了163个家蚕品种的系统发育树。与参考基因组Dazao比较发现,含有SNP数目最多的5个野蚕品种(C2wild、Cwild、C6wild、C1wild和C5wild),SNP系统发育树显示分为八个主要的进化枝。通过对家蚕和野蚕的SNP信息进行比较分析,发现性信息素的合成相关的脂肪酸酰基去饱和酶(desat1)基因(BMSK0007052)以及雄性生殖器发育和卵子发生相关的酪氨酸蛋白激酶基因(Btk29A,BMSK0007690),在野蚕中存在大量的SNP,在家蚕中的SNP较少。从家蚕茧色表型方面对不同品种的In Dels信息进行分析,发现中国四眠白色蚕茧品种与中国四眠黄色蚕茧品种相比,在类胡萝卜素结合蛋白基因(CBP,BMSK0000983)的5’端In Dels更少。