论文部分内容阅读
芸薹族(Brassiceae)是十字花科中重要的一个族,包含许多具有较高营养价值和经济价值的蔬菜。进化上,除了十字花科共同经历的γ、β和α古老的基因组多倍化事件外,芸薹族在大约10个百万年前还经历了一次额外的近期全基因组三倍化事件(WGT)。MIRNA(小分子RNA)和CNSs (保守非编码序列)是调控基因表达的两类重要序列,但是WGT对两者进化的影响并不清楚,进而限制了这两类序列在分子育种中的应用。本研究中,我们在完成芸薹族MIRNA和CNSs综合注释的基础上,系统地分析了WGT对这两类基因表达调控序列进化的影响。(1)通过小RNA测序数据分析、与先前MIRNA数据集整合以及共线性比较等手段对白菜MIRNA进行了注释,构建了白菜MIRNA数据集,共包含680个MIRNA和969个成熟体miRNA。其中,178个白菜MIRNA位点在近缘物种拟南芥、琴叶拟南芥和盐芥中具有97个非冗余直系同源MIRNA位点。并且这97个MIRNA位点在白菜中存在拷贝数差异,40个单拷贝,33个双拷贝,24个三拷贝。WGT后,MIRNA在白菜基因组上过保留,保留比例显著高于全基因组基因和其侧翼基因;且在亚基因组上偏向性保留,LF亚基因组上保留比例显著高于MF1和MF2亚基因组的。在序列变异上,多拷贝的MIRNA比单拷贝的MIRNA更为保守,暗示了多拷贝MIRNA进化上的纯化选择过程及功能上的重要性。我们在白菜中总共预测了MIRNA的涉及到多个生物学过程的2396个靶基因,表明MIRNA具有功能多样性。更进一步,miRNA-靶基因在进化的过程中发生了较高程度的分化,部分作用位点丧失,说明了miRNA对靶基因作用关系的快速进化和丢失。(2)通过拟南芥CNSs数据集整合、序列比对、共线性分析、多物种比较等步骤,我们确定了高可信度的芸薹族WGT前CNSs数据集,共有106280个完整CNSs(隶属19326个CNSs相关基因)和10095个严格CNSs(隶属4875个CNSs相关基因)。CNSs较高程度覆盖了顺式作用元件区域和DHS区域,并且CNSs相关基因在“DNA依赖的转录调节”GO术语中显著富集及转录因子基因富含CNSs,表明CNSs功能多样性及对转录因子基因的重要调控作用。CNSs丰度与十字花科物种的分化关系具有正相关性,物种间分化时间越长,共有的CNSs比例越低,这揭示了CNSs在进化过程中发生了突变和丢失。WGT后,CNSs比CNSs相关基因更易单拷贝状态,暗示了CNSs丢失导致的多拷贝基因功能分化。CNSs在芸薹族物种亚基因组上偏向性保留,亚基因组LF上CNSs保留比例显著高于MF1和MF2亚基因组的,这是由于CNSs相关基因在WGT后在芸薹族亚基因组上偏向性保留造成的。在多拷贝基因中,位于优势亚基因组或优势表达基因拷贝中的CNSs保留更高,这表明CNSs数量上的优势是多倍化基因组中亚基因组优势产生的重要原因。最后,WGT对植物CNSs进化的影响主要体现在CNSs的数量上,而不是CNSs的序列变异上。本研究不仅为芸薹族MIRNA和CNSs分析提供了数据资源,同时揭示了WGT对两者进化的影响,为转录和转录后水平理解多拷贝基因的功能分化提供了理论依据。