基于机器学习方法的蛋白质羰基化修饰位点的预测研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:kuvincent
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质羰基化(protein carbonylation,PCO)是一种由持续氧化应激诱导的翻译后修饰(post-translational modifications,PTMs),具有稳定性、不可逆性和相对早期形成的特点。研究发现,蛋白质羰基化可引起蛋白质结构的不可逆变化和原有生物功能的丧失以及细胞和组织功能障碍,进而导致细胞活力下降,甚至细胞死亡。蛋白质羰基化与细胞凋亡、衰老以及一些慢性疾病如慢性肺病和神经退行性疾病如阿尔兹海默症等的病因和发生机制密切相关。因此,蛋白质羰基化作为氧化应激的一个生物标志物,在多种疾病的病理过程和衰老中的作用一直以来备受关注。利用生物化学实验技术可以有效识别羰基化修饰位点,但是成本高、耗时长,并且蛋白质羰基化是一个高度动态过程,具有多种修饰形式,因此如果仅仅依赖于传统的生物化学检测技术来识别蛋白质羰基化位点将会严重限制羰基化修饰位点识别的研究进展速度。目前,随着高通量质谱技术的提升,产生了大量的蛋白质羰基化位点数据,为我们系统地对蛋白质羰基化的研究提供了数据支撑。因此,通过计算方法构建模型高效准确地识别蛋白质羰基化位点,既能为疾病的发生和发展研究提供关键线索,又能为生物实验研究提供有力的工具手段。在本文研究中,首先,我们从已发表的文献中收集经过实验验证的、包含蛋白质羰基化修饰位点的序列数据,经过严格的筛选和数据处理后,构建了一个高质量的基准数据集。接下来,我们比较分析了羰基化位点与非羰基化位点周围氨基酸残基的位置特异性序列特征以及氨基酸理化性质的分布情况,同时提出了一种新的特征编码方法即锥面体三维空间坐标特征来表征序列样本。随后利用随机森林(random forest,RF)算法来构建模型,并基于十折交叉验证评估模型的性能。为了去除冗余的特征,降低特征向量的维度,构建更加具有鲁棒性的模型,我们使用F-score方法进行特征筛选,并采用增量特征选择(increment feature selection,IFS)来确定用于构建模型的最优特征子集。与已有的模型相比,训练集上的十折交叉验证结果和独立测试集的测试结果表明,本文提出的模型对于蛋白质羰基化位点具有更好的预测性能。最终,基于最终得到的预测模型,我们搭建了一个用户友好的在线服务预测器i Car PS,同时还设计开发了一个具有图形界面的本地软件包,链接为http://lin-group.cn/server/i Car PS/,以方便相关研究者的使用。
其他文献
商用磁共振成像(Magnetic Resonance Imaging,MRI)设备是在上世纪八十年代被推出,因其软组织对比度高、可任意方向断层成像、无电离辐射等优点广泛用于临床诊断和生命科学研究中。MRI系统包括主计算机、谱仪、放大器、主磁体、线圈等主要部分,其中谱仪是MRI系统核心部件,负责序列运行、信号产生和接收等工作,其性能好坏影响着MRI设备成像质量。本文在课题组原有的研究基础上,对MRI
大脑是一个复杂的网络,信息的高效传输和处理依赖于不同脑区之间的信息交互。复杂脑网络分析法则可以定量评估脑区间的相互作用关系,目前被广泛用于大脑认知、精神性或神经性疾病研究中。然而,某些脑区的缺陷会干扰大脑对即将到来的信息的处理,从而导致网络功能失调。研究表明,许多脑疾病都被视为脑网络障碍,且表现出异常的网络模式,包括癫痫和注意力缺陷多动症(Attention deficit hyperactivi
研究背景:肺癌是目前死亡率第一的恶性肿瘤,其5年生存率仅为17%。如果能在早期阶段被发现,I期非小细胞肺癌的5年生存率约为70-90%。目前大多数肺癌在确诊时已是晚期,早期诊断对改善患者预后至关重要。传统肺癌早诊手段存在辐射暴露、高假阳性率等问题,目前急需简单、快速、灵敏、无创的早诊方式。呼出气分析用于辅助疾病诊断在临床上已有一些应用,是目前最具潜力的无创性早诊手段之一。其原理是挥发性有机化合物(
数论中有两大主题:解析与算术。Birch和Swinnerton-Dyer猜想(BSD)将解析量与算术量联系在一起。对于Q上解析秩≤1的椭圆曲线,此猜想已被Gross-Zagier[19]和Kolyvagin[28][29]的工作所基本完全证明。张寿武已将Gross-Zagier公式推广到全实域,并且田野和张寿武将Kolyvagin[28][29]和Bertolini-Darmon[4][7]关于B
为解决船舶轨迹聚类算法效率不高,检测精度低,丢失轨迹局部特征等问题,将具有噪声的基于密度的空间聚类(Density-Based Spatial Clustering of Applications with Noise, DBSCAN)算法由传统的点聚类推广为线聚类,提出一种可以直接对完整船舶轨迹进行聚类的具有噪声的基于密度的轨迹聚类(Density-Based Trajectory Cluste
在完成动作类电子游戏和飞行控制任务过程中,人脑均需要运用视觉搜索、精细动作控制、集中注意等多种相同的认知能力。而且不同个体间认知能力的差异也会体现在行为表现和同步收集的脑电图中。因此动作类电子游戏的电生理和行为表现或许可以预测飞行控制任务的表现。然而,前人对人脑认知能力的预测和训练方法大多是基于传统心理范式。本研究将电子游戏作为一种生态化的研究范式,以脑电图技术作为主要研究技术,拟通过运用一系列适
目的:透明质酸(Hyaluronic Acid,HA)是一种人体和自然界广泛存在的物质,在医用材料领域常用于构建具有抗污能力的水化涂层,有研究提示其还具有抗凝血、抗炎以及抗组织增生等生物学功能,但因其表面固定存在相当难度,目前尚缺乏对其上述作用的系统评价。本研究拟在血液接触材料表面构建能充分接枝HA的涂层,并通过体内外实验评价接枝不同分子量HA的涂层在抗凝血、抗炎、抗组织增生方面的作用。方法:利用
乳腺癌是女性最大的杀手之一,其具有易发性和高转移性。在乳腺癌的发生发展过程中,首先要通过浸润性生长侵袭周围的正常组织,这个过程不仅涉及到单细胞迁移,还存在许多细胞以群体为单位按照相同的速度向同样的方向进行定向运动的群体迁移。肿瘤细胞迁移受到许多信号通路的调控,研究发现FAK-Rho-ROCK信号轴在各种恶性肿瘤中明显上调。在肿瘤细胞单细胞迁移中,高活性的FAK会抑制肿瘤细胞的失巢凋亡,并调节细胞与
大量的神经精神性疾病中都伴随着神经元的损伤和神经环路的被破坏,因此通过补充神经元来修复损伤成为一种直接的神经精神性疾病治疗手段。从体外移植神经元或能产生新神经元的神经干细胞伴随着排异风险,由此直接促进自体新生神经元的产生成为一条更为优良的思路。一般而言,大部分的神经干/前体细胞(NSPCs)在发育后即告消弭,在成年哺乳动物的大脑中,神经元的更替极为缓慢,只剩少量NSPCs静默地存在于大脑中某些离散
1、概述南京长江大桥是我国在长江上自主建造的第一座双层公铁两用桥,该桥于1968年12月建成。据不完全统计,截止至2013年的45年中,共发生船只碰触大桥桥墩35次,并且近年几乎每年都有类似事故发生。最近一次最为严重的事故发生于2013年5月12日,装载1.25万吨石灰石的轮船碰擦到6号桥墩后,在下游岸边浅滩处沉没,所幸未造成人员伤亡、环境污染和严重的结构损伤。但是,本次事故也为大桥防船撞和
会议