论文部分内容阅读
蛋白质磷酸化在细胞生长、分化、凋亡整个过程中扮演至关重要的角色。磷酸化蛋白质的特定位点能起到开关该蛋白质某种功能的目的,从而实现在不同生物过程中该蛋白发挥不同作用的目的。这一过程是通过磷酸激酶催化来实现的。同时,磷酸激酶的催化作用也可以被抑制剂终止,以阻止磷酸激酶对蛋白质的磷酸化。研究表明,磷酸化异常是导致人类疾病的重要原因之一,通过抑制剂终止磷酸激酶的催化作用,将异常磷酸化功能阻断,可以实现疾病治疗。因此,磷酸激酶及其抑制剂的交互作用是当今病理学和生物信息学研究的热门问题之一。现有与磷酸激酶研究相关的算法主要集中于磷酸位点的预测,然而大多已预测的磷酸肽的磷酸激酶信息未知。而且现有算法在阈值选取及窗口长度划分问题上多采用定值,导致算法只能处理部分数据,而对另外部分数据失效。除此之外,磷酸激酶信息的缺失,对抑制剂的筛选影响很大。鉴于此,本文旨在设计有效算法确定催化蛋白质的磷酸激酶,以及能与磷酸激酶相互作用从而终止磷酸化过程的抑制剂。本文研究主要工作如下:(1)针对磷酸激酶信息缺失的问题,设计了基于贝叶斯的磷酸激酶预测算法。该算法结合信息熵及大津法筛选磷酸肽有效位点,在最佳窗口长度下,通过计算磷酸激酶信息缺失的磷酸肽序列贝叶斯条件概率,预测其最可能的磷酸激酶。(2)针对磷酸激酶抑制剂维度很高的问题,设计了基于GSVM的磷酸激酶抑制剂筛选算法。该算法通过粒度划分,准确筛选磷酸激酶-抑制剂特征,从而提高分类性能。同时,利用Platt Scaling计算样本权重,构造带权分类算法进一步提高分类性能。(3)针对磷酸激酶-抑制剂正样本较少,未标记样本很多的情况,本文对磷酸激酶抑制剂筛选算法采用了半监督学习算法(PU learning)建模。PU learning算法设计初衷就是处理正样本较少、未知样本很多的问题,因此能很好的预测磷酸激酶-抑制剂结合问题。同时,该研究把PU learning算法与GSVM相结合,构造多级分类器,提高了对未标记磷酸激酶-抑制剂交互作用分类的性能。实验结果表明,本文采用基于贝叶斯及大津法自适应阈值的磷酸激酶预测算法在特异性、敏感性及准确度上比已知磷酸激酶预测算法有很大提高。同时,本文设计的基于PU learning和GSVM的磷酸激酶-抑制剂预测算法性能突出,具有很强的泛化能力,提高了预测磷酸激酶-抑制剂交互作用的能力。