论文部分内容阅读
ENCODE计划揭示整个人类基因组的大部分会被转录,而其中编码蛋白的转录本只占很少一部分,大多数转录本是非编码RNA,如rRNA、tRNA、siRNA、 miRNA、piRNA、IncRNA等。它们构成了复杂的调控网络,可以精细地调控基因的表达。对这些非编码RNA的研究重新定义了“基因”的概念。本文以siRNA和IncRNA为研究对象,研究了影响siRNA的沉默基因效率的因素,分析了表观遗传修饰与IncRNA基因表达的相关性。RNA干涉是通过沉默特定基因研究基因功能的有力工具,并广泛应用于靶向药物设计,为基因治疗提供了新方向。对于小干涉RNA (siRNA)的设计而言,并不是针对靶基因的每个位点都具有同样的抑制效率。所以一个成功的RNA干涉实验,选择最佳沉默效率的小干涉RNA是最关键的一步。许多研究者已经总结了一些筛选原则,并利用各种机器学习算法优化siRNA的设计,但仍然未达到令人满意的效果。预测精度的限制主要来源于对分子机制缺乏完整的理解。目前所知:siRNA与Argonaute蛋白的结合是其行使功能的关键。在上游过程中,核苷酸组分和siRNA热力学稳定性影响着RISC沉默复合体的组装,进而决定siRNA的沉默效率。而下游过程中,对靶mRNA的可及性是否影响沉默效率还存有争议。Reynolds等人的实验证明siRNA的沉默效率不依赖于靶mRNA的特征属性,更倾向于受siRNA小分子固有属性影响。而Luo和Heale有着不同见解,他们认为靶mRNA的二级结构是沉默效率高低的决定因素,并将其应用到siRNA沉默效率的预测中。与此同时,有几个实验室的实验结果也支持他们的观点。尽管实验研究已经表明RNAi是依赖于ATP水解能的多蛋白参与的复杂过程,但一些细节还很模糊,比如RISC是如何寻找靶基因的?寻靶过程是否依赖结合位点上下文环境?所以发现一些潜在的影响因素是一项重要的任务近来,已有实验研究证明当miRNA结合位点处于AU-rich的上下文环境中,能够帮助miRNA与靶的结合;Sun等人认为在miRNA结合位点上游区域包含一些AU-rich motif,比如ARE(AU-rich elements)的核心序列‘’AUUUA",可以增加其抑制蛋白翻译的效率;Kertesz提出了一个包含侧翼序列信息的miRNA靶位点识别模型。但目前还没有针对siRNA结合位点上下文环境的研究。鉴于siRNA与miRNA分子机制的相似性,本文重点探讨siRNA结合位点两侧序列是否影响其沉默效率。这需要大量随机设计的siRNA作为统计样本,一个针对34个基因随机设计的2431个siRNA的数据库为我们的研究提供了可能。通过统计siRNA靶位点侧翼序列核苷酸分布特征发现:相对而言,高效率siRNA结合位点侧翼序列更富含AU核苷酸。进一步利用二项式分布算法统计6联体motif的偏好性,发现在高效siRNA结合位点上下文环境中偏好出现一些AU-rich motif,同样包含了"AUUUA"序列。综合所有影响因素(核苷酸组分、5’端与3’端稳定性差异、靶mRNA的可及性、侧翼序列核苷酸分布特征与AU-rich motif偏好性等),我们提出了一个新颖的两步算法用于预测siRNA效率。这一算法结合随机森林和支持向量机建立训练模型,去除冗余的信息,选择最佳特征子集,并能给出每个特征的贡献重要性指标。在独立测试集上预测的结果显示皮尔逊相关性达到0.721,而国际知名预测算法Biopredsi、i-score、DSIR和ThermoComposition21分别为0.671、0.668、0.645、0.680。对特征的相关性分析表明,靶可及性是最重要的指标之一。另外,当引入靶位点侧翼序列特征后,预测率得到显著提高。这说明siRNA与靶mRNA的相互作用不仅在结合位点区域需要合适的序列组分和结构状态,而且受到更宽泛的区域的影响,甚至可能有更多的RNA结合蛋白参与此过程。作为生命调控的新层面,长非编码RNA近年来受到广泛的关注,它的越来越多的功能也被发现,比如在基因组印迹、X染色体失活等表观遗传修饰通路中起到关键作用。但表观遗传修饰对IncRNA表达影响的研究相对较少,我们重点分析了11种组蛋白修饰(H3K4me1、H3K4me2、H3K4me3、H3K9me1、 H3K9me3、H3K27me3、H3K36me3、H3K79me2、H4K20me1、H3K9ac、H3K27ac)和一种组蛋白变体H2A.Z以及DNaseI高敏位点等染色质特征与IncRNA基因表达的关系。发现IncRNA与蛋白编码基因有着相似的规律:在TSS附近,组蛋白修饰H3K9ac、H3K27ac、H3K79me2、H3K4me2、H3K4me3、H2A.Z激活和增强基因的表达;3种组蛋白修饰H3K27me3、H3K9me3、H4K20mel抑制基因表达。