论文部分内容阅读
异染色质蛋白1(Heterochromatin Protein 1,HP1)是一个真核的染色质蛋白,它由一个chromo结构域(CD)和一个chromo-shadow结构域(CSD)组成,它主要通过与组蛋白修饰及其他异染色质蛋白互作而参与异染色质的形成和转录沉默的调控。已有的研究揭示了 HP1如何影响染色质建成、基因沉默和基因表达的机理,但是有关HP1、HKMTase(Histone Lysine Methyltransferase,组蛋白赖氨酸甲基转移酶)、HDMase(Histone Demethylase,组蛋白去甲基化酶)和组蛋白之间的共进化关系研究仍有限。本研究鉴定了三界生物(细菌、古细菌和真核生物)55个代表性物种基因组中的编码CD、CSD、SET(果蝇 Drosophila 中的 Suppressor of variegation、Enhancer of zeste 和Trithorax基因)结构域的蛋白、HDMase和组蛋白,并进行系统发生分析,并对草莓属(Fragaria)中这些基因家族的染色体定位、扩张事件及表达量模式进行分析。同时,运用染色质免疫共沉淀技术(Chromatin Immune-Precipitation,ChIP)获得了森林草莓红果中蛋白质修饰H3K9me2和H3K27me3在染色体上的分布。生物信息学与表观遗传学的综合分析,既追溯了 HP1、HKMTase、HDMase和组蛋白的起源及它们之间的进化关系,又揭示了草莓果实中H3K9me2和H3K27me3对基因表达调控所发挥的可能作用。本研究的主要结果如下:1.我们在所选取的55个物种中总共鉴定出343个编码CD的蛋白、36个编码CSD 的蛋白、33 个 HP1、1082 个 SET 蛋白、439 个 JmjC(Jumonji C)蛋白、57 个 LSD(Lysine-Specific Demethylase)蛋白、193 个连接蛋白(Linker histone)和 93 1 个组蛋白(Histone),且发现编码CD、CSD的蛋白、HP1和LSD蛋白起源于真核生物,且CD出现得比CSD早,而SET HKMTase和JmjC HDMase蛋白起源于细菌,组蛋白起源于古细菌。2.系统发生分析表明真核生物的HP1蛋白结构域组成相同,且能分为2组,这可能与CD结构域中与组蛋白修饰直接作用的“爪子”残基的极性有关。SET蛋白能分成7个亚家族,其中,可能与H3K9甲基化相关的蛋白又进一步分为2个亚组,而可能与H3K27me3相关的蛋白分为3个亚组;JmjC蛋白能分成4个亚家族,与REF6(Relative of Early Flowering 6)和 KDM4(Lysine Demethylase 4)同源的蛋白有着相似的结构域组成,都含有1个JmjN(Jumonji N)结构域和1个JmjC结构域;而LSD蛋白没有明显的分组,且每个物种的LSD蛋白聚集在一起。3.在草莓属凤梨草莓(F.×ananassa)、森林草莓(F.vesca)和饭沼草莓(F.iinumae)三个物种中,分别鉴定出2、1、1个LHP1基因;145、47、47个SET基因;89、22、21个JmjC基因和13、4、3个LSD基因。三个草莓种的SET基因分为7个亚家族,其中有9个F.×ananassa SET基因、2个F.vesca SET基因和2个F.iinumae SET基因可能甲基化H3K9,45个F.× ananassa SET基因、15个F.vesca SET基因和15个F.iinumae SET基因可能甲基化H3K27;而草莓中的JmjC基因能分成15个亚家族,其中,在F.× ananassa、F.vesca和F.iinumae中与AtREF6同源的基因分别有4个、1个和1个,且SET和JmjC蛋白的每个亚家族结构域组成较保守。凤梨草莓(F.×ananassa)的HDMase数目是其两个二倍体原始种草莓(F.vesca和F.iinumae)的4倍,这可能由多倍化造成。Dupgenfinder结果表明草莓的WGD(Whole Genome Duplication events,全基因组复制事件)及其他复制事件是SET基因和HDMase基因家族扩张的原因之一,而LHP1的扩张并不受这两个因素影响。4.转录组数据表明LHP1基因、组蛋白甲基转移酶和组蛋白去甲基酶基因在凤梨草莓(小绿果期、大绿果期和红果期)、森林草莓(大绿果期和红果期)成熟过程中表达量均有显著变化,且均呈现出多样化的表达模式。通过比较凤梨草莓和森林草莓SET HKMTase、HDMase和LHP1同源基因在果实成熟过程中的表达趋势,发现这三个基因家族在多倍化过程中基因表达具有多样性,且有的基因保留了森林草莓中的调控模式,而有的则发生了变化。5.森林草莓红果期果实的染色质免疫共沉淀测序(ChIP-seq)结果表明H3K9me2主要分布在启动子区域和基因间区域,且H3K9me2标记基因参与了各种生物过程。此外,H3K9me2主要在富含转座子(Transposable Elements,TEs)的异染色质区域富集,而H3K27me3则在基因密度较大的常染色质区富集。同时,H3K9me2和H3K27me3的富集水平在转录基因的转录起始位点(Transcription Start Site,TSS)附近区域大量下降,且均与基因的转录水平呈负相关关系。