论文部分内容阅读
蛋白质翻译后修饰是一种动态、可逆的过程,在原核生物和真核生物的多种生理和病理功能中扮演着重要角色。尽管目前已经发现的蛋白质翻译后修饰有600多种,且主要发生在赖氨酸和精氨酸中,然而很多修饰底物在病理和生理中的作用仍然很大程度上是未知的。准确识别修饰位点是深入了解其生物学过程机理的重要步骤,对发现人类疾病药物靶点具有至关重要的意义。与昂贵且劳动强度大、周期长的传统实验研究相比,计算方法因其方便、高效率及高准确度的优势在最近几年引起了更多关注。本文针对近几年新发现的两种翻译后修饰(2-羟基异丁酰化和丁酰化)分别构建了在线预测计算工具,并进行了一系列蛋白质组学分析。具体内容如下:1.基于随机森林方法构建的最优特征子集,开发了一种新颖的物种特异性在线预测工具 KhibPred(http://bioinfo.ncu.edu.cn/KhibPred.aspx)。赖氨酸 2-羟基异丁酰化与多种生物疾病及生物机制的调控有密切联系,比如膀胱癌、脂质代谢、糖酵解/糖异生、TCA循环和蛋白质生物合成与加工。因此,本文针对Saccharomyces cerevisiaes,Physcomitrella patens,Rice Seeds 和 HeLa cells 四个物种,收集了最新、可靠的数据集,然后利用包含序列信息、理化性质和进化信息三种信息特征用于表示蛋白质序列片段。基于随机森林构建的最优特征子集,六种代表性的机器学习方法(支持向量机、随机森林、决策树、高斯贝叶斯和KNN)用于训练构建模型,并进行了系统比较。结果表明基于支持向量机分类器预测性能优于其他几种分类器,最终利用基于支持向量机的预测模型构建在线预测工具。交叉验证和独立测试集评估表明,KhibPred具有良好的鲁棒性能和满意的结果。2.基于多特征优化策略赖氨酸丁酰化的计算识别和功能分析。赖氨酸丁酰化不仅能够引起调节多种表观遗传过程的染色质结构和功能改变,而且可以在能量代谢和细胞信号传导中诱导丁酰辅酶A。对此,基于最新发表的实验验证的丁酰化数据集,我们利用三种不同特征选择策略来构建最优特征子集以训练模型,并根据五个特征融合使用信息增益方法来选择最佳窗口大小。最终构建了一个新颖的赖氨酸丁酰化在线预测工具LBP,用户可免费自由访问:http://bioinfo.ncu.edu.cn/LBP.aspx。基于5倍交叉验证和独立测试集结果,LBP表现出具有良好的预测性能。相较于单个特征,特征优化算法有效地提高了模型的预测性能。在线计算工具的建立为深入研究丁酰化修饰提供了有效补充。此外,我们提供了一个关键的框架系统地分析了丁酰化底物蛋白的生物联系和生物功能。分析结果表明,丁酰化与蛋白质代谢过程和酶的活性密切相关。