论文部分内容阅读
蛋白质翻译后修饰是细胞内一种非常重要的调控,而膜蛋白类型与它执行的功能密切相关。因此,准确地识别蛋白质翻译后修饰位点和膜蛋白类型对疾病预防与治疗具有重要意义。药物重定位是近来兴起的一种重要的药物研发思路,现已成为计算生物学中的研究热点。本文探索蛋白质亚硝基化、氨甲酰化修饰位点,膜蛋白类型以及药物适应症的计算预测方法,主要工作如下:1、蛋白质亚硝基化修饰位点预测方法研究基于稀疏表示理论、核函数理论以及特征选取技术,提出了一种计算预测蛋白质亚硝基化修饰位点的方法。首先,从氨基酸理化属性、频率、二级结构等6方面信息将蛋白质序列编码为666个特征;然后利用最大相关最小冗余算法及核稀疏表示分类算法选择优化特征,再以核稀疏表示分类算法建立预测模型。10折交叉测试和独立测试结果的马修相关系数分别为0.1634和0.2919。在由113条序列构成的另一个独立集上进行测试,马修相关系数为0.2239,优于当前的预测算法iSNO-AAPair和iSNO-PseAAC(马修相关系数分别为0.1125和0.1190)。此外,开发了预测蛋白质亚硝基化修饰位点的在线工具:http://www.zhni.net/snopred/index.html。2、蛋白质氨甲酰化修饰位点预测研究基于一类k-最近邻算法和二阶段特征选择,首次提出了计算预测蛋白质氨甲酰化修饰位点的方法。一类k-最近邻算法的一个优点在于其不需要负样本参与训练。实验结果表明,使用280个优化特征表示,在训练集上留一法测试的灵敏度为82.50%,而在测试集上的灵敏度、特异性和马修相关系数分别为66.67%、100.00%和0.8097。通过分析优化特征,发现了一些影响蛋白质氨甲酰化修饰的潜在因素。3、人类膜蛋白多标签类型的预测研究探讨了人类膜蛋白同源性和相互作用与其类型的关系。基于膜蛋白序列同源性和蛋白质相互作用,提出了一种人类膜蛋白多标签类型的预测模型。在三个实验数据集上进行留一法测试,分别取得了87.65%,81.39%和70.79%的预测精度,优于基于伪氨基酸组成的最近邻算法。此外,还提出了一种用于评价多标签预测结果的指标。4、药物适应症预测研究探讨了化合物-化合物相互作用以及化合物结构相似性与药物适应症之间的关系,提出了一种药物适应症的预测方法。该方法首先使用化合物-化合物相互作用预测药物适应症,若未知药物与训练药物都不产生相互作用,则使用结构相似性预测药物适应症。在1,573个药物组成的训练集上进行5次5折交叉验证测试,第一序平均预测精度为51.48%。在32个药物组成的测试集上进行独立测试,第一序预测精度为50%。有趣地发现有些不在药物原始适应症中的重定位适应症被该方法成功预测。5、癌症药物计算预测研究基于化合物-化合物相互作用,提出了一种计算预测癌症药物的方法。对于一个查询药物,预测方法给出了从最大可能到最小可能的一系列治疗癌症适应症。训练集上留一法测试的第一序预测精度为55.93%,而在验证集和测试集上的第一序预测精度分别为55.56%和59.09%,优于基于分子描述符方法的结果。通过查阅文献发现,有些预测错误的适应症仍然可能对药物有效。这表明预测错误的适应症其实有可能是药物潜在的适应症。这些结果表明,该方法可成为预测癌症药物适应症的有效方法之一。