【摘 要】
:
蛋白质翻译后修饰(Post-translational modification,PTM)之间的相互作用在调节蛋白质活性、细胞信号转导、基因表达以及蛋白质-蛋白质相互作用等生物学过程中发挥着至关重要的作用,研究这类相互作用有利于深入阐明由PTM介导的调控机制。通过实验方法检测PTM相互作用耗时费力,而计算方法的开发则有望弥补实验技术的不足。现有大多数的计算研究主要依赖于序列层面的残基关联特征来开发
论文部分内容阅读
蛋白质翻译后修饰(Post-translational modification,PTM)之间的相互作用在调节蛋白质活性、细胞信号转导、基因表达以及蛋白质-蛋白质相互作用等生物学过程中发挥着至关重要的作用,研究这类相互作用有利于深入阐明由PTM介导的调控机制。通过实验方法检测PTM相互作用耗时费力,而计算方法的开发则有望弥补实验技术的不足。现有大多数的计算研究主要依赖于序列层面的残基关联特征来开发预测模型,忽略了PTM相互作用位点的结构信息和单个残基的特性,从而阻碍了预测精度的提升。因此,开发新算法以克服现有研究中的局限性显得至关重要。本研究提出了一种基于结构信息的算法(PTM Cross-Talk predictor,PCTpred)来提高预测PTM相互作用的准确性。该算法首先在蛋白质序列和结构层面设计了一系列残基关联特征(如共进化信息、共定位信息等)和独立残基特征(如致病性分数、拉普拉斯拓扑指标等),通过比较分析发现正负样本在基于残基对和残基的特征上均具有显著的差异。然后,利用前向特征选择技术保留了23个新引入的描述符和3个传统描述符,在此基础上分别开发了序列分类器PCTseq和结构分类器PCTstr,并通过权重联合构建了最终的预测模型。基于样本和蛋白层面的评价,PCTpred获得的曲线下面积分别为0.903和0.804。即使在去除样本中的距离偏好或使用模拟的蛋白结构作为输入,本算法的预测性能仍能得到维持或适度降低。对不同类型的PTM相互作用子集和文献收集的共修饰肽段进行测试,PCTpred依旧获得了良好的预测效果,从而展现出较强的泛化能力。与目前最优秀的算法相比,PCTpred在各种类型的评测中均能获得较高的预测精度。PCTpred的源代码和数据集可从以下链接获取https://github.com/Liulab-HZAU/PCTpred。
其他文献
随着高质量蛋白质和DNA实验结构(X射线,核磁共振,冷冻电镜)的增加,为我们在大数据场景下提高对生物大分子内部相互作用的理论认识开辟了空间。虽然以往的研究已经从基于统计学上的距离分布和相互作用能等方面对不同形式的氨基酸-氨基酸以及氨基酸-碱基接触(范德华、氢键)的相对丰度进行了分析,但是对于其内部的物理化学性质的研究则相对较少。在本工作中,我们在紧束缚近似方法的基础上,直接对蛋白质-蛋白质和蛋白质
目的:研究青海地区藏族与汉族H型高血压患者亚甲基四氢叶酸还原酶(Methylene Tetrahydrofolate Reductase,MTHFR)基因C677T基因型及等位基因频率分布是否具有民族差异性,以及
随着钢铁生产工艺的改进和社会经济发展的影响,企业对钢铁冶炼系统的可靠性要求越来越高,钢铁冶炼系统的可靠性研究也越来越受到人们的重视。本文针对冶金系统存在多态、多阶段的特点,对高炉炼铁系统的可靠性问题进行了深入研究,研究内容主要有以下两方面:(1)基于MDD的高炉炼铁多态系统可靠性分析针对高炉冶炼系统中组件存在多态性的特点,提出一种基于MDD的高炉炼铁系统可靠性建模方法。首先对高炉炼铁系统的组件建立
与传统的检测方法(如离子选择电极法、伏安法、比色传感器)相比,由于荧光传感器的操作简单、灵敏度高、选择性好、快速的响应时间而被广泛的应用在检测、识别环境中和细胞中的
随着中国移动业务种类以及用户量的急剧上升,如何科学的对用户进行划分以及分析消费行为习惯,并针对性地提供合适的业务产品显得尤为重要。基于此本文提出了一套基于粗糙集进
生物个体的新陈代谢离不开基因复杂的转录调控和遗传机制。随着高通量测序技术的快速发展,基因组序列的成功测序使得我们能够进一步探究隐含在序列背后负责的调控机制。人们发现真核细胞基因的表达调控受到多种因子的影响,如转录因子、增强子与DNA转录相关的酶协调合作,构成基因精准、高效的时空表达。近年来,三维基因组学的快速发展促进了全基因组范围内表观遗传修饰、调控元件的鉴定和其参与基因表达的转录调控作用研究。本
目的:非酒精性脂肪性肝病(Non-alcoholic fatty liver disease,NAFLD)是最常见的慢性肝病之一,与代谢异常尤其是糖尿病密切相关。本研究目的是探索合并糖代谢异常(Impaired g
Causal基因的推断在理论和实践中都有重要意义,包括阐明生理过程尤其是人类疾病的机理,以及作物改良和疾病的治疗等,因此相应统计学方法的开发至关重要。现有的causal基因推断方法根据利用的数据类型和统计方法,大致可分三类:基于基因组的方法、基于其他组学数据和多组学数据的方法,以及基于网络的方法。方法繁杂多样,改进层出不穷,但仍然存在一些问题。一则这些方法无法同时形式化地容纳多种组学数据;二则这些
熵的概念最初源自于热力学,随后进一步发展到统计物理与信息论等学科。在热力学、统计物理和信息论等学科领域里,熵的概念占据着一个中心位置。Shannon熵的理论体系已经比较完善,Rényi熵是Shannon熵的一个自然的推广,并且已在计算机科学、金融学、密码学和信息论等其它科学中获得了广泛的应用。本文主要研究关于Shannon熵和Rényi熵的非齐次马氏信源的信息熵定理及Rényi熵估计。基于Shan
由于成像设备景深的原因,在单焦距的情况下,很难获取所有物体都聚焦的图像。其最主要原因在于:物体只有处在成像设备特定距离范围内才能够聚焦,而处在范围之外的物体不聚焦。