基于监督学习的蛋白质复合物识别算法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:xliang677
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质是生命活动的重要物质基础,也是生命活动的执行者和调控者。少数蛋白质可以在生物体中单独执行特定功能,大部分蛋白质通过与其他蛋白质之间的相互作用以复合物的形式完成其特定功能。因此,精确高效地识别蛋白质复合物对于揭示细胞组织原理和功能机制具有重要意义,且对复杂疾病的诊断与靶向治疗具有一定的指导作用。本文基于生物信息学理论与机器学习算法,对蛋白质相互作用网络中蛋白质复合物的识别问题进行了研究。目前蛋白质复合物的识别方法可分为实验方法和计算方法,其中实验方法所需的时间成本和经济成本较高,很难满足大规模应用的需求,因此基于计算方法的复合物识别算法研究逐渐受到科研人员的广泛关注。根据算法所使用的核心思想不同,现有算法可大致分为四类:基于团和密度子图法、基于模型法、基于种子延伸法和基于监督学习法。这些方法能够在一定程度上识别蛋白质复合物,但仍存在不足:未对存在噪声的蛋白质相互作用网络中的相互作用边赋予权重、未考虑真实复合物本身的特性和复合物在网络中的结构信息、在复合物搜索过程中忽略了搜索效率的问题。针对以上不足,本文提出了基于监督学习的蛋白质复合物识别算法(Protein Complexes Recognition Algorithm Based on Supervised Learning,CRSL),该算法集成了基于监督学习的复合物识别方法和基于结构信息识别方法的核心思想,改善了影响算法效率的因素。首先,CRSL算法基于生物信息和拓扑结构信息对蛋白质相互作用边赋予权重,构建带有权重的蛋白质相互作用网络。然后,根据蛋白质复合物在网络中的特性,构建特征数量更少、覆盖样本信息量更多的特征矩阵,并将其用于监督学习模型的训练。接下来,使用训练后的监督模型与带有惩罚项的结构函数对当前的复合物子图能成为真实复合物的可能性打出评分,依据评分指导在网络中搜索复合物的过程,并在该过程引入禁忌表来避免重复搜索。最后,对识别出的复合物按照设定阈值进行裁剪和合并。为验证CRSL算法中特征矩阵构建的有效性,本文设计实验将CRSL算法的特征与其他算法的特征进行性能对比,结果表明CRSL算法的特征矩阵对复合物的识别精度更高。为验证CRSL算法对监督学习模型选择的合理性,本文选取了监督学习中广泛使用的支持向量机、K-最邻近和随机森林三种模型进行对比实验,实验结果表明随机森林模型在现有的特征矩阵下具有更高的识别精度与更强的稳定性。在与其他六种蛋白质复合物识别算法的对比实验中,结果表明CRSL算法识别出的复合物与真实复合物的匹配率更高,该算法较其他算法相比具有更优越的性能,对蛋白质复合物识别算法的研究有积极的推动作用。此外,CRSL算法的识别方法对其他类似的复杂网络中社区结构的识别问题有一定的拓展应用意义,这将是我们未来展开研究的重点方向。
其他文献
目的:脑白质疏松(Leukoaraiosis,LA)严重程度可能与大血管闭塞(large vessel occlusion,LVO)所致急性缺血性卒中(acute ischemic stroke,AIS)机械取栓(mechanical thrombectomy,MT)术后的不良预后有关,本meta分析旨在探讨LA严重程度与AIS相关危险因素和MT治疗结果之间的关系。方法:从Pub Med、Web
智能网联汽车的测试与评价是车辆智能化研究的关键技术,传统的道路测试方法需要大量的行驶里程进行验证,既耗费时间和物力,又存在一定的事故风险,因此开展基于硬件在环的仿真测试是一种高效、安全的测试方法。智能车辆的环境感知层包含雷达、视觉和车联网三大模块,其中车联网是利用车间自组网或蜂窝网络实现车-车、车-路、车-人通信的无线信息交互系统。区别于另两个传感器,车联网的应用场景考虑了无线信号的收发过程,所以
当前汽车工业正面临着智能化和电动化的变革,传统的真空伺服助力制动系统已经不能满足要求车辆先进辅助驾驶功能的各项需求。与此同时,政府机构和汽车厂商都在大力推广电动汽车的使用,这就要求制动系统能够不依赖真空源,且具备制动能量回收、主动制动等功能。在此背景下,电控制动系统迎来了良好的发展前景。随着电控制动系统的不断发展,集成式电控制动系统即1-Box制动系统受到了广泛关注。这是因为其依靠高性能的电机作为
实际工程中,诸多既存混凝土结构由于混凝土强度退化、环境作用耐久性下降、抗震设防标准提高、使用荷载改变等原因导致结构承载力和耐久性出现不同程度的降低,如何有效提升既存老旧混凝土结构的安全性和耐久性成为工程加固与改造领域关注的热点问题。近年来,FRP材料由于具有轻质高强、耐腐蚀、施工便捷等优点在结构加固与改造领域得到了较为广泛的应用,相比采用碳纤维片材,采用玄武岩纤维片材(Basalt Fiber R
目的:明确吉林省血液透析患者首次和目前血管通路的选择、建立及使用情况,分析不同血管通路的并发症情况,为临床合理选择血管通路提供一定的指导。方法:分别选取2020年8月1日-2020年11月30日在吉林大学第二医院、敦化市医院、安图县人民医院进行血液透析治疗的602例患者为研究对象。通过调查问卷,病历记载,同时结合透析患者登记本、血液透析记录单收集患者的相关资料。收集的内容包括性别、年龄、婚姻状况、
钢管混凝土的出现至今已有几十年的历史,目前已经广泛应用于城市地下空间开发、桥梁和房屋建筑等领域,钢管混凝土以其良好的受力性能以及便捷的施工工艺,在各类土建工程中发挥着越来越重要的作用。与此同时,方钢管混凝土(Square concrete-filled steel tube,简称SCFST)由于具有节点构造简单、施工便捷等优势,近年来工程应用也开始逐渐增多。但是,由于使用年限增加、使用功能改变、荷
随着中国现代城市的快速发展与智能手机的普及,城市中通信基站的部署越来越多,产生了海量的手机信令数据。对信令数据进行利用有助于我们对城市人口流量进行监控与诱导。本文对基站覆盖范围内的人口驻留量以及基站间OD流量进行预测,不同于传统方法中将城市划分为的网格的预测手段,以基站为空间粒度可以有效做到流量细化与定位,不仅有助于基站节能、基站资源调度等任务,也会大大提高了城市资源的利用率、城市的交通效率以及城
传统文化教学是高中语文教学中重要的环节之一。学生在高中阶段已开始形成相对完善的人生观和世界观,有自己的独立思考能力和判断能力,对于传统文化,可以从更深层次去理解和接受。在小学和初中阶段,学生对于传统文化的理解处于有些懵懂的阶段。高中语文教材所选编的课题和内容,是中国传统文化所包含的精粹部分,将语文教学内容与中国传统文化融合,对学生形成积极向上的民族观、国家观和文化观有积极作用。
传统的单聚类方法是依据样本的相似度,将具有相似属性或特征的样本归为一类。然而,随着样本数和特征数的大量增加,单聚类方法的时间成本变得难以想象。另一方面,大型数据集内部数据成分复杂且往往呈现稀疏性,单聚类方法不能很好地处理大型数据集的噪声干扰。基于低维数据全局搜索的单聚类方法不能很好地适应于高维数据和大型数据的聚类问题。为克服单聚类方法存在的缺陷,双聚类方法应运而生。不同于传统单聚类方法,双聚类方法
驾驶风格主要指驾驶员的驾驶习惯,多通过驾车时的行为特征进行定义。驾驶风格与智能交通、无人驾驶、保险理赔都有着千丝万缕的联系。针对现今驾驶风格识别研究多存在数据来源不真实、考虑因素不全面、无法对驾驶风格进行整体把握等问题,本文通过采集真实的驾驶数据,以工况作为驾驶风格识别的最小粒度,构建了基于半监督学习的多工况驾驶风格识别模型。主要工作如下:1.搭建驾驶风格识别数据库。通过对日常驾驶风格影响因素的深