论文部分内容阅读
免疫蛋白酶体对蛋白质的裂解,是MHC-I途径的起始环节,限定了能被呈递以致引起CTL抗原反应多肽的基本特征。将免疫酶切预测结果整合到MHC-I抗原表位预测中,能有效提高预测准确度。而MHC-I抗原表位在免疫相关研究中占有重要地位,因此,免疫蛋白酶体剪切位点的预测也就具有重要意义。本研究首先考虑了免疫蛋白酶体酶切的生物学过程,深入分析了酶切活性位点的剪切偏好和影响剪切发生的物理化学因素。在此基础上,考虑到蛋白酶体在剪切预测建模相关先验知识上的严重缺乏,决定采用非线性机器学习方法对酶切数据进行挖掘。但是不同于相关研究以往机器学习方法,在编码方式上,采用酶切过程中产生关键影响的物理化学性质,而非常规的经验编码方式,不仅显著减低了特征空间维度,提高了训练速度,而且预测效果也很不俗。本研究取得了较为满意的结果,测试表明预测模型,即使与目前最主流软件相比,也明显拥有较高的预测精度。对训练集的5倍交叉验证表明,预测精度可达到敏感度97.7%,专一性可达到90.6%。同时,本研究首次针对免疫蛋白酶体的三类活性位点分别建立了预测模型,并将整合三类子模型的预测模型与一个通用预测模型的结果进行了比较分析,发现细分剪切模型确实有助于提高预测精度,但是效果并不如预期的明显。这可能有两个原因,一是不同剪切活性位点所要求的底物序列锚定模式差异并不大,二则可能由于模型的细分方式还需要再探索。此外,通过对酶切关键位点P1相关位点的分析,总结出一些潜在的底物序列锚定位点,及其空间位阻和疏水性与P1点的对应性质之间的关系,这可能有助于相关后续研究。在对真假样本潜在底物序列锚定位点的对比上,发现尽管在假样本上酶切关键位P1上存在与真样本相同的氨基酸,但是其在某些锚定位点上满足理化条件的氨基酸的缺失,可能是导致其潜在剪切点最终未被剪切的原因。