基于定量构效关系的域/肽识别亲和力机器学习建模预测研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:A13808289587
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
细胞信号网络中的蛋白质/蛋白质相互作用通常由弱的、短暂的和可逆的域/肽相互作用(DPI)来介导,该过程中一个蛋白表面的柔性肽段被另一个蛋白的刚性肽识别结构域所识别和结合,其相互作用强度由二者之间的亲和力(affinity)所决定。快速可靠的DPI亲和力建模和准确预测将有助于阐明细胞信号网络的分子机制和生物事件,并进一步帮助发展直接靶向DPI的相关疾病治疗药物。传统上,肽定量构效关系(pQSAR)被广泛应用于肽的生物活性建模和预测当中,该法利用氨基酸描述子(AAD)在序列水平上表征肽的一级结构,进而通过回归建模将表征得到的描述子矢量(自变量)与观测到的活性数据(因变量)进行统计学习关联。然而,pQSAR尚未广泛应用于研究大规模肽配体与其蛋白受体的直接结合行为。另一方面,三维定量构效关系(3D-QSAR)在小分子药物设计领域已经较为成熟,然而目前还没有专门针对域/肽复合物这类生物大分子系统的三维结构表征方法。因此在过去的研究中无法通过直接表征这类复合物组成单元在三维结构上的相互性质并用于pQSAR建模。本文试图将pQSAR方法学直接用于大规模域/肽识别亲和力的建模和预测研究当中,分别从肽序列和三维结构两个层次进行表征来建立统计学习模型。在基于序列层面的域/肽相互作用研究上,本文从文献和数据库中收集了超过2万个与经典肽识别域SH3、PDZ和14-3-3相互作用的、包含短线性模体(SLiM)肽段并以此定义了全基因组水平的DPI亲和数据集,其实验测定的域/肽亲和力数据由勃林格光单位(BLU)表示,该单位来源于SPOT肽合成后的强制分配光强分析。在此基础上,利用多种不同线性和非线性机器学习方法对不同氨基酸描述子参数化后样本集进行系统的pQSAR建模,并通过严格的统计检验和内部/外部测试进行模型验证。结果表明,由于多肽构象的内在柔性和无序性以及不同多肽残基之间潜在交互效应,导致传统pQSAR策略只能对全基因组DPI事件进行定性或半定量建模。此外,用于表征DPI亲和值的强制分配BLU单位是通过一种间接高通量放入方法测量的,这种半定量方法可靠性较差,包含强的噪声,不像Kd和ΔG这样定量的亲和力物理量在准确度上更适合用来进行pQSAR建模研究,从而导致一些模型中存在较大的偏差,并且不同机器学习方法下得到的模型拟合度、稳定性、预测力都一般,因此可以认为Rprd2=0.7是pQSAR方法在处理大规模DPI亲和数据时的外部泛化能力上限。对于三维结构层面的域/肽亲和力预测研究,本文首次提出了一种新型的基于结构蛋白质/肽复合物三维定量构效关系表征方法,即比较蛋白质/肽相互作用分析法(CoPPIA)。我们从蛋白质结构数据库(PDB)和相关文献中搜集了 171种蛋白质/肽复合物的结构数据和它们相应的亲和力解离平衡常数值(Kd),并采用偏最小二乘法建立CoPPIA对复合物结构表征之后的参数集与亲和力之间的关线性多元统计关系,进而采用严格的内外验证对获得的一系列pQSAR模型进行了系统的评估和验证。结果表明,虽然实验所获得的样本亲和力数据值Kd准确度较高,但是由于CoPPIA方法进行结构表征后的向量参数存在较多的无效值和强噪声,从而导致该类模型存在一定偏差,即使采用三类不同性质的氨基酸参数(极性参数、疏水参数、立体参数)加以矫正结构表征,外部预测决定系数仍存在较多负值,且Rprd2=0.4可认为是全变量模型的预测能力上限。因此,我们进一步通过变量选择对样本参数进行组合优化,结果表明所得建模显著降低,内部稳定性较大的提高,预测能力亦有明显改善。因此,新提出的CoPPIA方法建议需要与变量选择搭配使用才可有效去除表征所得相互作用参数中存在的大量无意义项和强噪音等干扰因素,使得最终所得pQSAR具有实际应用意义。
其他文献
Micro RNA(miRNA)是一类长度约为21个核苷酸(nt)的内源小分子非编码RNA,它通过对靶标m RNA切割或抑制翻译来调控靶基因的表达,实现其生物学功能。植物miRNA在调控生长发育、应对生物和非生物胁迫反应等方面发挥重要作用。MIR319在植物中为一类保守miRNA。已有研究表明植物MIR319调控叶片发育、耐寒性及耐盐性。在水稻中,OsMIR319家族有两个成员:OsMIR319a
学位
目的 探讨D-二聚体(DD)、C-反应蛋白(CRP)、降钙素原(PCT)、中性粒细胞与淋巴细胞比值(NLR)及白细胞计数(WBC)等血液中炎症指标对儿童复杂性阑尾炎(complicated acute appendicitis,CAA)的诊断价值,建立预测模型并验证。方法 回顾性分析2018年1月~2021年1月在上海市儿童医院和上海市浦东新区公利医院诊断的578例阑尾炎患者,根据病理类型分为复杂
期刊
2005年《超级女生》的一炮而红标志着粉丝文化在中国土壤上生根发芽,得益于社交平台的飞速发展,粉丝群体的自主权得到了极大的提升。“阿中哥哥”“小粉红”等网络词语的流行让大众看到了粉丝文化的正向健康发展。但与此同时,近年来频频发生的诸如“举报”、“网络骂战”等粉丝极端行为让人不得不重新审视粉丝文化。其中,2020年发生的肖战“227”事件较为典型地反映了粉丝群体的极端行为。因此,本文将以“227”事
学位
水稻是世界上重要的粮食作物,也是我国最主要的粮食作物之一。生产上,水稻受水土资源的约束最强,干旱已成为制约我国水稻持续增产的主要因素。因此,提高水稻抗旱能力已经成为育种工作急需解决的关键问题之一。作物抗干旱等非生物胁迫研究是植物研究领域最具挑战性的工作之一,挖掘水稻参与干旱胁迫响应的重要基因,进而明确水稻干旱响应的分子机制,从而提升水稻干旱耐受性,培育水稻抗旱新品种具有重要的意义。目前关于水稻干旱
学位
创新是企业获得持续竞争力的重要途径,中小企业大多存在创新力不足的问题,企业与高校和科研机构合作可以取得良好的创新知识来源,为企业提升创新力奠定基础。产学研协同创新是我国科技创新的一个重要方向,与之相关的理论研究有助于提高我国科技创新的管理水平。中小企业创业初期首先要解决生存的问题,发展到一定阶段以后,依靠科技创新提升竞争力的需求日趋明显。对于存在产学研协同创新活动的中小企业,建立一套系统的、与企业
学位
品牌作为国际经济发展交流中被普遍认为的企业最有价值的资产,能够带动企业产品收益做出明显贡献的资产,对于公司的品牌发展、行业地位、市场竞争力,甚至在投融资渠道方面都具有积极且重要的战略意义。本文的研究对象是一家成立于2002年的综合物业管理及企业服务公司——浦江(中国)控股有限公司。该公司于2017年港交所上市,在行业排名相对靠后,市场占有率有限。针对该企业现状,本文运用戴维·阿克的品牌资产管理理论
学位
目的 探讨RPB5调节蛋白(RPB5-mediating protein,RMP)对卵巢癌细胞增殖与凋亡的影响以及通过腺苷酸激活蛋白激酶(adenosine 5’-monophosphate (AMP)-activated protein kinase,AMPK)通路调节线粒体稳态和氧化应激的作用机制。方法 实时荧光定量PCR(qRT-PCR)法检测人输卵管上皮永生化细胞FTE-187与人卵巢癌细
期刊
目的 研究利那洛肽(linaclotide)联合普芦卡必利(prucalopride)对便秘型肠易激综合征(IBS-C)大鼠脑肠肽和胃肠激素分泌的影响。方法 选取50只SPF级SD大鼠,随机选取其中10只大鼠设为正常对照组(Con组);其余40只大鼠采用冰水灌胃法建立IBS-C模型后,将其随机分为IBS-C组、利那洛肽组(Lina组)、普芦卡必利组(Pruca组)和利那洛肽联合普芦卡必利组(Lin
期刊
公司中层管理人员作为公司的关键人力资本,不仅是联系公司高层与基层之间的纽带,而且是公司存在和发展不可或缺的推动力。企业是否能够实现自己的战略,赢得竞争市场取决于其内部的中层管理者是否能够胜任各自的岗位,是否具备与组织发展相适应的能力。因此,深入分析B制药企业的中层管理人员胜任力发展现状,提出发展思路和策略来增强整个公司的中层团队的胜任力,对公司实现长期持续健康的发展具有深远的影响。本文胜任力素质指
学位
生长抑素(SS)是一种强效抑制激素分泌和神经兴奋的环肽,其抑制作用是由生长抑素受体(SST)1-5介导的。在哺乳动物和鱼类中,SSTs的表达具有组织特异性,SS可激活不同组织中特定的SST亚型来抑制生长激素(GH)-胰岛素样生长因子(IGF)轴的相关激素的表达和分泌,从而抑制机体生长发育。已有研究表明降低SS的抑制作用的确可促进鱼类的生长,但这种无选择性地降低SS的效应会导致较大的副作用。因此,筛
学位