论文部分内容阅读
反义转录本(natural antisense transcript,NAT),因其包含与其他RNA的互补序列,可以方便的调控其他RNA,其中的反式NAT是指在基因组不同位置上转录出来且含有互补序列的RNA,具有更为复杂和广泛的调控能力。目前已发现了数千对互补区较长的反式NAT,且其中多数的两个RNA均编码蛋白。那么,在生物体内编码蛋白的mRNA是否普遍的具有调控能力呢?是否能够普遍的以互补序列反式调控其他mRNA呢?
生物体中已发现了包括miRNA和siRNA在内的小RNA,其长度只有约22nt,却在控制mRNA稳定性和翻译过程中起重要作用。本文中我们在人类的24,968个编码蛋白的mRNA间,寻找具有15-25 bp精确短片段互补配对区的反式NAT,发现全部这些mRNA都可以和其他mRNA至少形成一个短片段互补配对。通过设计一系列对照组,我们发现在编码蛋白的mRNA中短配对数目显著丰富。
那么编码蛋白的mRNA是否会以这些短片段配对互相调控呢?我们发现这些短片段配对的一些重要特征说明了其具有重要的生物学功能。首先,短片段配对倾向于位于mRNA的非翻译区,而较少位于翻译编码区。其次,mRNA可形成的短配对数与其表达值有显著的负相关性,可以形成较多短配对的mRNA具有较低的表达值,而且组织特异性表达基因的mRNA上的短配对密度显著地高于管家基因的mRNA。还有,在短配对区的单核苷酸多态性密度显著低于短配对的旁侧区。并且没有证据说明,我们找到的这些短片段配对与已发现的小RNA相关。
因此,我们认为在编码蛋白的mRNA间存在的丰富的反式短片段互补配对具有生物学功能,mRNA间通过短片段互补配对直接作用是一个更可能的模型,具体的作用方式需要进一步利用实验方法验证。
在本论文的第二部分中,我们建立了一个预测致病性非同义单核苷酸多态性(non-synonymous single nucleotide polymorphisms,nsSNPs)的方法。大多数的人类遗传性疾病与nsSNP有关,而且nsSNP的数目众多,通过实验方法逐一研究其功能相当困难,因此预测与疾病相关的nsSNP可以为后续研究提供基础。已有的预测方法多同时采用蛋白质结构和序列的特征数据,然而只有有限的蛋白质有具体的三维结构信息,限制了预测的能力。在这项工作中,我们仅根据蛋白质的氨基酸序列信息进行预测,每个nsSNP构建了5069个特征,包括氨基酸序列微环境的理化生化参数和保守性参数。经过最大相关最小冗余、前向搜索和后向搜索方法处理,我们最终提取到了最优的特征集,包含27个特征,预测准确度达到了64.98%。结果显示,保守性是预测致病性nsSNP的最重要的特征,另外氨基酸序列微环境中某些特定位点的特征,也对预测有很大的贡献。