论文部分内容阅读
研究背景与目的在真核生物体内,以DNA作为模板合成RNA的过程称为转录。绝大多数细胞体内的RNA主要包括三大部分:信使RNA (messenger RNA, mRNA)作为翻译的模板,指导蛋白质的生物合成;核糖体RNA(ribosomeal RNA, rRNA),与核糖体蛋白一起形成核糖体在mRNA上进行扫描,成为蛋白质翻译的场所;转运RNA (transfer RNA, tRNA),作为适配器根据mRNA上密码子携带相应的氨基酸进入到核糖体内参与多肽链的组装。此外,还有一些核小RNA(sn RNA)和微小RNA(mi RNA)分别与mRNA的剪切和基因表达调控有关。可见,mRNA在蛋白质生物合成中占据着举足轻重的地位。基因的表达是一个十分复杂过程,一个基因能否表达以及表达量的高低,在很大程度上受到多个层次、多方面水平调控,从DNA的复制,RNA的转录,mRNA的剪接加工,蛋白质的翻译,到翻译后的修饰等均可参与基因的表达调控。其中,转录后的调控机制是研究较为透彻的。刚转录出来的前体mRNA (precursor mRNA)必须完成加工剪接后才能成为成熟mRNA (Mature mRNA)并作为模板指导蛋白质生物合成。在真核细胞中,一个成熟的mRNA包括5’端的7-甲基鸟嘌呤的帽结构,5’端的非翻译区(5’untranslated region,5’UTR),编码蛋白质的翻译序列,3’端的非翻译区(3’untranslated region,,3’UTR)和PolyA尾。作为成熟mRNA的一部分,在5’UTR内存在着一些可以影响下游蛋白编码区—主要开放阅读框(main open reading frame, mORF)翻译的顺式作用元件,例如某些较长的5’UTR序列可能会形成妨碍核糖体在mRNA上扫描的二级结构、与不依赖帽结构(Cap-independent translation initiation)参与翻译相关的内部核糖体进入位点(internal ribosome entry sites, IRESs),发夹结构,某些蛋白结合位点以及上游开放阅读框(upstream open reading frame, uORF)。到目前为止,作为翻译调控元件的uORFs的研究是最为广泛,据文献报道,uORF普遍存在哺乳动物的转录本中,大约49%的人类基因和44%的小鼠基因转录本的5’UTR中至少包含有一个uORF。研究表明,uORF可以通过多种调控机制减低对下游基因翻译起始的效率或是引发mRNA的降解来对蛋白表达产生抑制作用。这些调控机制主要涉及到uORF的长度、个数、序列在物种间的保守性、与5’末端帽结构相对位置、与下游编码序列的距离以及uAUG周围的序列文本。研究还表明,uORFs序列上位点的多态性会影响基因的表达,这可能会与人类疾病表型存在一定的相关性。例如凝血因子Ⅻ,该基因的uORF上存在一个等位基因的C/T的多态性位点,其中含有碱基T的那条等位基因的经体外实验验证蛋白表达降低了大约50%。这说明,自然发生在uORF上多态性似乎能够改变下游基因的表达。此外,已有的文献还报道,来自遗传与生物信息学的研究表明,某些人类疾病的发生与uORFs序列上突变有着密切关系,突变的发生可以导致uORFs的产生或消失,显著影响下游基因的表达。其中已报道的由多态性或突变产生uORFs导致人类疾病共有14种,反之,由多态性或突变致使uORFs消失的引起的人类疾病有2种,此外还包括其他一些间接的因素如uORFs编码的短肽、翻译起始因子的磷酸化等均可围绕uORFs对下游基因表达产生显著的影响。到目前为止,对于人类多种疾病的变化与uORF之间关系尚无系统性的研究,为此,在前期应用生物信息学的手段对几个现有的公共数据库中人类基因转录本上uORF进行研究,通过数据过滤、筛选、GO功能注释和Kozak序列特征的分析,以及ClinVar、TCGA、COSMIC三个疾病数据库分析的基础上,在多形性胶质母细胞瘤、子宫内膜癌与头颈部鳞状细胞癌病人的突变基因中随机挑选出高度怀疑蛋白表达的改变与uORF密切相关的靶点基因,并进行实验验证。我们希望通过这项研究,让更多的研究者关注人类疾病与uORF的关系,有助于理解疾病的表型与基因型的关系,为研究疾病发生的机制提供新的思路,也为疾病的临床治疗提供新的方向。材料与方法1.在前期生物信息学数据分析的基础上的研究我们利用现有的refGene、Genebank等数据库计算并注释出所有经实验验证的基因的5’UTR的起始和终止坐标并提取其序列,经过一致性校对,筛选出两套数据集中完整性和一致性高的序列条目,然后扫描含有uORF的转录本及其对应的基因名。对遴选出来含有uORF的基因进行GO功能注释与富集,对翻译起始位点(translation initiation site, TIS)和1uAUG周围的序列进行Kozak文本序列分析。最后,通过对ClinVar、TCGA、COSMIC三个疾病数据库分析随机挑选出GCSAM、PSTPIP1、HIS1H2BD、CEBPB、VAT1、 ERP29六个高度怀疑基因表达与uORF序列突变密切相关的靶点基因,并从蛋白表达与mRNA转录这两个方面来进行细胞功能实验。2.实验验证选择psiCHECKTM-2双荧光素酶报告载体作为细胞功能实验验证的载体,但是该载体只有一个多克隆插入位点位于3’末端,无法满足实验的要求,所以需对该载体进行改造,通过2步PCR法在5’端即海肾萤光素酶报告基因(hRluc)的前面,T7 Promoter之后制造一个多克隆插入位点。随后,以人类基因组DNA为模板扩增出靶点基因的5’UTR序列,在构建好的psiCHECKTM-2双荧光素酶报告载体的5’端多克隆位点的上以双酶切的方式插入,构建成野生型的质粒载体,再以野生型质粒载体为模板通过DpnI定点诱变的方法构建突变型载体。细胞功能实验方面,选择目前转染效率相对较高的HEK293T细胞系,采用脂质体瞬时转染的方式,分别将野生与突变的2种质粒转染进HEK293T细胞中。在Dual-Luciferase(?)报告基因检测系统上测定荧光值反应蛋白表达的情况,荧光定量PCR测定mRNA水平。结果相对于没有uORF的基因来说,含有uORF的基因对下游基因蛋白翻译的影响更显著,而随着uORF个数的增加,对下游蛋白翻译水平的影响亦出现叠加效应.根据这一点,在对ClinVar、TCGA、COSMIC三个疾病数据库分析后,我们从过滤后TCGA数据库中,在肿瘤病人突变体中挑选了GCSAM, PSTPIP1、 HIS1H2BD、CEBPB、VAT1、ERP29六个靶点基因。其中,野生型的GCSAM, PSTPIP1、HIS1H2BD、VAT1、ERP29这5个靶点的5’UTR不含有uORF, 而野生型的CEBPB的5’UTR则只含有一个uORF,并进行实验验证。在载体的选择,采用psiCHECKTM-2双荧光素酶报告载体,同时根据实验需要,比对载体上的序列与四个靶点基因的5’UTR序列之后,在hRluc之前,T7Promoter之后成功增加了NdeI、AscI、AgeI、PacI、SalI、SadI六个酶切位点,通过双酶切的方式将四个靶点基因的5’UTR序列插入到该载体的5’端处构建野生型质粒DNA。 Dpnl定点诱变之后,GCSAM、PSTPIP1、HIS1H2BD、ERP29的5’UTR序列均产生了一个ATG的起始密码子,并与下游的终止密码子正好形成3的倍数,构成一个uORF。VAT1产生了一个终止密码子与上游起始密码子构成一个uORF。与此相反,突变之后,CEBPB的uORF起始密码子消失,结果也导致uORF的消失。将构建好的野生型与突变型的质粒载体分别转染到HEK293T细胞中,Dual-Luciferase(?)报告基因检测系统检测蛋白表达,结果发现突变后的GCSAM、PSTPIP1、HIS1H2BD由于产生了一个uORF,其蛋白表达的水平与突变之前相比下降了大约50%,尤其是PSTPIP1下降的幅度更为显著,大约为90%。VAT1、ERP29的突变型与野生型无显著性的差异。而CEBPB突变后蛋白表达的水平与野生型相比却升高了近50%。mRNA水平方面的变化,采用荧光定量PCR的方法检测,四个靶点基因的突变型与野生型相比,除了PSTPIP1稍微轻度下降之外,其他均无显著性改变。讨论本项研究的生物信息学数据表明,uORF广泛存在与人类基因的转录本,且是转录后调控基因表达的一种常见机制,但是uORF的突变与人类疾病相关性的报道却非常有限,本项研究分析疾病数据库中各种疾病病人大量的变异序列与uORF突变之间的潜在关系,在分别来自多形性胶质母细胞瘤、子宫内膜癌和头颈部鳞状细胞癌病人基因中挑选四个靶点基因进行验证。根据文献报道,GCSAM与人类淋巴瘤疾病的发生发展有关,它主要在GC B细胞和来源于GC B细胞的淋巴瘤细胞中表达,由于GCSAM基因表达的蛋白能够降低淋巴瘤细胞的迁移运动,所以与疾病的预后有着莫大关系。因此,许多的学者从信号通路、基因小鼠模型,转录因子的抑制作用等方面对其表达调控的各种机制做了深入了研究。PSTPIP1作为一种衔接蛋白,主要在造血干细胞的细胞骨架中表达,该基因与一些罕见的常染色体显性遗传的自身免疫性疾病相关,例如化脓性关节炎,无菌坏疽性脓皮病,RAPA综合症等,据文献报道,PSTPIP1作为一个负性调节因子抑制T-cell的激活,该基因的表达能够抑制几种与免疫细胞功能相关的转录因子的活性,它所编码的蛋白在C末端可以形成一个SH3结构域。该结构越对PSTPIPl的功能十分重要。因此该基因编码区碱基的突变是主要的研究热点。HIST1 H2BD是参与编码真核生物染色质(chromatin)上重要的组蛋白的基因之一,目前对于组蛋白家族成员基因的研究还比较少,而此类基因的表达调控更是少之又少,到目前为止,对HIST1H2BD表达的研究仅限于mRNAs 3’末端的多聚腺苷酸化。在生理条件下,CEBPB参与粒细胞,巨噬细胞,脂肪细胞,破骨细胞,成骨细胞,角化细胞,乳腺上皮细胞,肝细胞等多种类型细胞的增殖与分化,C/EBP转录因子还涉及到机体多种生理病理的调控进程,例如新陈代谢、炎症反应、疾病的恶性转化等。已有文献报道,CEBPB基因上uORF功能失活导致编码的截短亚类蛋白含量增加,与霍奇金淋巴瘤、间叶性大细胞淋巴瘤、侵袭性乳腺癌等恶性肿瘤有关。四个靶点基因除了CEBPB基因是明确已有文献报道对其的uORF介导的翻译调控做过深入研究之外,其他3个靶点基因的表达与人类疾病的关系均未牵涉到uORF介导的翻译调控,我们的实验结果却证实这3个靶点基因的5’UTR突变后所产生的uORF的确对下游基因表达产生显著的抑制作用。基于这一点,有必要对高通量测序数据中uORF变化进行更为详实的注释,便于发现可能导致或促进蛋白表达变化的新的基因组改变。除了uORF之外,在5’UTR内尚存在其他的一些作用元件,这些调控元件是否与uORF协同或拮抗的调控基因表达,还需要更进一步对现有数据的挖掘和更多的实验数据支持。对于VAT1与ERP29阴性结果的解释,可能存在以下几种原因:①并非所有的uORF都能产生阻遏作用,核糖体可以通过遗漏扫描或重新再起始的机制,重新引发翻译。②可能存在一些其他调控机制抵消uORF的阻遏作用。③并非所有含uORF序列特征的基因都存在uORF介导的调控机制,对于VAT1与ERP29突变后产生的uORF可能是一些没有功能的uORF。对于这些分析的合理性,都需要进一步对VTA1、 ERP29序列特征性进行深入研究。此外,希望通过这项研究为其他的研究人员在探索人类疾病与基因表达关系时提供一种新的研究思路,尝试着从这一方面去解释一些发病机制尚不明确的人类疾病。