蛋白质的耐热温度的分类与预测以及综合数据库的构建

来源 :北京化工大学 | 被引量 : 0次 | 上传用户:jinher123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
有效区分蛋白质的热稳定性差异,探索影响蛋白质的耐热性的因素,一直是生物科学研究人员的重要研究课题之一。在这项研究中,使用不同的机器学习方法,结合了蛋白质的自身特征以及来源微生物的生长温度特征,进行蛋白质耐热性的分类以及蛋白质最适温度的预测,并对蛋白质耐热性的机制进行了研究。主要内容如下:(1)在具有72条蛋白质序列的小数据集上,基于Boruta和主成分分析PCA降维方法的结合,第一次建立了BOCA算法。该算法不仅可以获得所有影响蛋白质耐热性的重要特征,还可以对特征进行降维,去除重要特征间的相关性,减少特征间的冗余。将BOCA算法结合不同的机器学习模型,实现了耐热和非耐热蛋白质的分类模型。使用BOCA算法最终将434维特征向量缩减为新的18维特征向量。结果表明,BOCA特征筛选算法与以径向基为核函数的支持向量机模型SVM相结合在耐热蛋白质和非耐热蛋白质的分类中具有良好的性能。在训练集和测试集上分别达到了97.78%和96.92%的准确度。通过筛选出的特征发现耐热蛋白质含有更多带电和极性氨基酸以及分子间氢键,还证明了二肽对蛋白质耐热性的重要性。带电以及具有极性的体积较大的氨基酸的含量、二肽组成以及分子间氢键的数量是影响蛋白质耐热性的关键因素。(2)为了使BOCA+SVM模型更具有可信性,使用该模型对四种耐热程度的4000个蛋白质以及六种耐热程度的3000个蛋白质进行分类。在训练集和测试集上对四种耐热程度的蛋白质的分类准确度分别达到了95.65%和96.40%。在训练集和测试集上对六种耐热程度的蛋白质的分类准确度分别达到了69%和70%(3)另外,结合了蛋白质的生理特征,理化特征和序列特征,应用回归模型对蛋白质的最适温度进行预测。最后在20个单个氨基酸含量与来源微生物的生长温度共21维特征组合上的随机森林模型达到了决定系数R~2为0.57的预测效果。(4)构建了综合信息数据库Uni Mine,相比于现有的其他蛋白质信息数据库,Uni Mine不仅集成了已经被人工注释的蛋白质的基本信息数据以及网页数据库链接,例如PDB数据库、STRING数据库等。并且还将代谢反应相关的蛋白质化合物活性数据库Chembl30和Bindingdb2022进行了集成。将这些蛋白质化合物的结构、Uniprot id、参与反应的活性值IC50、Ki、Kd本地化。另外在Uni Mine数据库中还加入了蛋白质耐热性分类、蛋白质最适温度的预测模型以及蛋白质序列比对程序。从Uni Mine中可以快速的获取蛋白质的一些功能与性质。
其他文献
黄酮化合物(Flavonoids)是一种广泛存在于植物中的多酚化合物,具有抗氧化、抗菌、抗炎及保肝护肝等多种生物活性,在食品医药领域应用广泛。邻羟基化反应是其重要的修饰反应,由加氧酶催化,能增强其生物活性。该反应主要由P450酶催化,但P450是膜蛋白,在原核生物中可溶性差、表达困难。因此,开发能在原核生物中高效表达的单加氧酶对于黄酮化合物的生物合成具有重要的研究价值。本研究通过筛选、结构分析及改
学位
据统计,每年有近1000万人死于癌症,是当前最严重的人类健康问题。作为一种新型疗法,光动力疗法(Photodynamic therapy,PDT)正日益引起人们的重视和研究。相对于传统的治疗手段,其具有可控、微创、副作用较少等特点。PDT主要由特定光照、氧气和光敏剂三部分组成,光敏剂受到特定光照射后会将氧气催化生成有毒的单线态氧,从而起到杀死肿瘤的作用。但卟啉光敏剂的水溶性较差,且肿瘤的缺氧环境与
学位
膀胱癌是一种常见的恶性肿瘤,每年约有60万人患膀胱癌,21万人死于膀胱癌。免疫治疗是一种新的癌症治疗方法,主要靶向T细胞,T细胞情况非常复杂,因此,一个亟待解决的问题是如何深入分析T细胞。为了解析膀胱癌浸润T细胞的状态和功能,我们利用单细胞转录组测序检测了两例浸润性膀胱癌患者的肿瘤组织、癌旁正常组织以及PBMC中的T细胞,并筛选出了4种肿瘤特异性浸润T细胞亚群,分别是耗竭型T细胞(exhauste
学位
<正>原因状语从句是高考英语考查的高频考点。原因状语从句可放于句首或句尾。一、常见的引导原因状语从句的引导词常见的引导原因状语从句的引导词有because,since,as,for (为了……),because of及now that,seeing that (鉴于,由于)等。例如:I don’t want to go to Mary’s birthday party since we had a
期刊
MLM型结构脂,即1,3-中链脂肪酸-2-长链脂肪酸的甘油三酯,具有降血脂、减肥、降低心脑血管疾病等功能,广泛应用于医疗健康、保健食品等领域。目前,MLM型结构脂多采用酶法合成,因其催化剂成本高、稳定性差,受原料约束大等严重制约了其应用,因此开发一种新型生产技术及工艺,降低其生产成本,具有重要的研究价值和意义。本课题以大肠杆菌为研究对象,研究了胞内不同链长脂肪酸合成的调控方法,重构了甘油三酯合成途
学位
合成生物学中生物实验主要依靠研究人员的手工工作,如果手工完成实验,周期较长、耗费劳动力、同时会有一定的出错率。若是将自动化技术应用到生物实验中,可以解决手工实验的上述问题,因此关于智能生物制造系统的研究与搭建迫在眉睫。本论文基于酶定向改造实验,针对实验室的智能生物制造硬件系统,设计开发了一套系统控制软件,实现控制集成硬件设备的同时提供友好人机交互界面,从而控制协同硬件设备完成无人生物实验。本文的主
学位
密码子扩展技术可在翻译水平上控制蛋白质的表达,实现密码子扩展的功能需要借助琥珀密码子、正交翻译工具和非天然氨基酸等。聚羟基脂肪酸酯(polyhydroxyalkanoate,PHA)是一大类生物基的高分子材料,其生物合成涉及多种酶。本论文用密码子扩展技术调控紫色蛋白和丙酰辅酶A转移酶(propionyl-Co A transferase,Pct)的表达,成功实现了在翻译水平上对PHA的生物合成进行
学位
嗜肺军团菌在入侵宿主细胞后,能够通过分泌一系列效应蛋白,借助泛素化修饰作用,延缓宿主细胞凋亡,加快自身繁殖并维持其感染。泛素是一种小分子量蛋白质,能够参与细胞凋亡等多种重要生理活动。它能通过与目的蛋白共价连接,使其携带泛素标签,完成对靶蛋白的泛素化。传统的泛素化过程是一个经典的三酶级联反应,而嗜肺军团菌的效应蛋白MavC则能够以非常规的方式催化底物UBE2N的泛素化,仅需两步即可完成泛素化过程。同
学位
聚(4-羟基丁酸酯)(P4HB)因其热塑性、优良的机械性能、生物降解性和良好的生物相容性,已成为一种很有应用前景的生物材料。随着其化学合成方法的突破,P4HB的研究受到广泛关注。作为可植入生物材料,植入物的稳定损失可以伴随新组织生长。另外,也需要保证聚合物不会突然释放大量的酸性降解产物。因此,明确影响P4HB降解速率的因素并对其降解行为进行调控以满足不同的应用需求具有重要意义。我们通过在P4HB中
学位
不可控出血和细菌感染是创伤后死亡率高的重要原因。有效的止血剂快速控制出血的同时预防感染对临床应用是非常必要的。现有的无机止血剂相较聚合物止血剂止血效果更好,但存在生物毒性或抗菌能力差的问题。本研究在过氧化钙纳米颗粒(CaO2NPs)表面包覆二氧化硅制备出核壳结构的纳米颗粒,形成了一种简单高效的新型无机纳米止血抗菌剂(CaO2@SiO2NPs)。与血液接触后,CaO2@SiO2NPs表面的硅醇基以及
学位