论文部分内容阅读
真核生物基因序列包括编码的外显子序列和不编码的内含子序列,在转录过程中内含子被切除,外显子将有序的拼接在一起形成mRNA。而选择性剪接使得一个基因序列有多种剪接方式,并能产生不同的mRNA,进而编码多种蛋白质,选择性剪接是蛋白质多样性的重要来源。选择性剪接普遍存在于真核生物基因组中,人类基因组中一半以上基因存在选择性剪接,而且选择性剪接存在于不同组织细胞和不同发育阶段,贯穿整个生命过程,并与疾病密切相关。ESTS和微阵列实验是目前确定选择性剪接事件的主要来源,但这些实验方法操作复杂,并有很多不足之处。如何用理论和计算的方法识别和预测选择性剪接是目前生物信息学研究工作的重要任务。本文将基于基因组局部序列信息,用WebLogo、序列信息参量Mni和统计检验方法分析序列,并提取序列特征;用位置权重矩阵、离散增量、支持向量机和马氏距离判别式对选择性剪接事件进行了预测;并对剪接位点竞争机制和回文序列等选择性剪接有关机制进行了进一步研究。论文主要研究内容如下:1.首次运用位置权重矩阵和离散增量结合支持向量机的方法,基于序列信息预测分类了选择性5′╱3′剪接位点和假剪接位点。结果显示,我们的方法特异性为85.62%(81.19%)时,能预测88.74%(90.86%)的选择性5′(3′)剪接位点。2.基于剪接位点竞争机制,以序列特征为参数,用位置权重矩阵和离散增量结合支持向量机的方法预测了人类和小鼠的选择性5′/3′剪接位点和组成性剪接位点。我们的方法可以对67.88%(71.63%)的人类供体(受体)位点进行正确分类。供体位点的预测成功率接近目前最好的预测方法,受体位点的预测成功率高于目前最好的预测方法4~5%。并且我们的方法对小鼠选择性5′/3′剪接位点预测成功率可达到72%,可知我们的方法预测性能好,并具有一定的普适性和推广能力。3.以位置权重矩阵打分函数值来表示剪接位点强度,以打分函数相减值来表示剪接位点竞争机制,并基于剪接位点竞争机制,以打分函数相减值为唯一参数,预测了选择性5′/3′剪接位点。预测成功率与目前最好的预测结果相当。预测结果证明我们找到了表示剪接位点竞争机制的一个最佳参数:打分函数相减值。4.统计分析了盒式外显子和组成性外显子的序列长度、长度被3整除序列的比例、两侧剪接位点保守性等序列特征。用t检验方法统计计算了左侧内含子序列、右侧内含子序列和外显子序列的三联体组分信息,得到了CCT等差异显著的三联体。并基于上述序列特征用位置权重矩阵和离散增量结合支持向量机的方法,位置权重矩阵和离散增量结合马氏距离的二次判别方法对盒式外显子进行了预测。两种预测方法均约为60%。5.统计了盒式外显子两侧序列中的回文序列和两侧序列相互之间形成的回文序列,并与组成性外显子和随机序列的回文特征进行了比较。发现组成性外显子回文密度高于盒式外显子回文密度,并高于随机序列回文密度2~3倍。此统计比较结果为选择性剪接来源于组成性剪接的理论提供了又一个依据。6.本文还统计了肿瘤特异性剪接位点的序列特征,运用位置权重矩阵和离散增量结合支持向量机的方法预测了肿瘤特异性剪接位点,其成功率为62%,高于其它文献的结果。7.本文中首次把不同的选择性剪接模式产生的选择性供体(受体)位点归为一类,即把剪接位点分成选择性供体位点、选择性受体位点、组成性供体位点和组成性受体位点四个大类,进行了分析和预测。基于线虫选择性剪接数据的预测结果显示,把剪接位点分为四大类是可行的,这对今后的选择性剪接位点研究工作提供了一个新思路。