融合生物信息的关键蛋白质识别算法研究

来源 :兰州理工大学 | 被引量 : 0次 | 上传用户:sumjoy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质是一切生命的物质基础,是机体细胞的重要组成部分,生物的结构和性状都与蛋白质有关。然而大部分的蛋白质都不能单独运作,而是通过与其他蛋白质发生相互作用来行使功能,相互作用的蛋白质系统成为所有生命活动的基础。将蛋白质作为图的节点,相互作用的蛋白质作为连边,得到蛋白质相互作用网络。已有很多蛋白质相互作用网络数据供研究者使用。依据蛋白质对生物体的不同影响可以将蛋白质大致分为关键蛋白质和非关键蛋白质两类。其中,关键蛋白质是对于生物体生存和保持功能正常运作所必需的蛋白质,它的缺失会造成生物功能丧失,并最终导致生物体无法生存。关键蛋白质的研究不仅能够增加对生命活动的理解,也可以帮助研究人员发现一些致病基因,对生物医学的研究有促进作用。因此对于关键蛋白质的识别成为一项重要的研究工作。近年来复杂网络理论的研究不断深入,借助于这种理论工具可以研究各种大型复杂系统,并解决复杂系统中节点中心性、社区检测、网络传播等问题。在复杂网络理论中,通常将关键蛋白质理解为蛋白质网络中的重要节点,考虑到关键蛋白质具有特定的生物功能,关键蛋白质的研究可以从复杂网络理论中的节点中心性和融合生物信息两个角度作为切入点。节点中心性是衡量各个节点在网络中相对重要性的指标。在网络分析中,对图中某个节点的中心性表征有多种方法,包括度中心性、介数中心性、接近度中心性和特征向量中心性等。融合生物信息是指通过融合生物体在生命活动、细胞组成等方面的生物信息来丰富蛋白质网络信息,例如复合物信息、亚细胞定位信息、基因表达等。其中,复合物是一种由蛋白质组成的高内聚低耦合模块,能相互协作完成特定的生物功能,且研究表明复合物内的关键蛋白质占比更大。亚细胞定位用于准确地定位每个蛋白质所在的细胞类型。本文将利用复杂网络理论,基于蛋白质相互作用网络的拓扑结构,并融合蛋白质复合物、亚细胞定位信息等,来研究关键蛋白质的识别算法。本文主要围绕以下三个方面展开:1.提出了融合复合物信息的方法来识别关键蛋白质。在整个网络中,影响节点重要程度的因素不仅与节点本身的特性有关,也与该节点周围邻居节点在复合物中的特性有关。该方法结合了单个节点在整个网络中的局部和全局的拓扑特性,同时也考虑了节点及它的邻居节点在复合物中的结构特性作为蛋白质的综合性能,并对各个节点的综合性能降序排列最终获得关键蛋白质的备选集,将其命名为CDC与CIBD。这种方法有效地减少了单个数据源噪声对预测准确性的影响,能够提高蛋白质相互作用网络中关键蛋白质的识别准确度,解决了生物实验方法成本昂贵且耗时长的问题。2.提出了混合聚类系数中心性和扩展信息中心性的方法来识别关键蛋白质。依据关键蛋白质在网络上中更易成簇出现,而基于拓扑结构的聚类系数是衡量节点紧密程度的一种指标,因此,将聚类系数应用于识别关键蛋白质中。在整体网络中,每个节点的聚类系数是唯一确定的,但是在不同的复合物中,节点的聚类系数有所不同。混合聚类系数中心性方法延伸了复杂网络中的传统中心性聚类系数,首先定义了节点在复合物内的聚类系数,进而通过综合衡量节点的聚类系数、网络中边的聚类程度以及在各个复合物内节点的聚类系数,对节点进行打分,将其命名为CENC。扩展信息中心性的方法旨在复合物内更好地识别关键蛋白质,首先在复合物内定义了一种新的方法用于寻找复合物中的关键节点,其次整合复合物的出现频率,最后结合网络整体拓扑结构的信息中心性进而获得节点打分,将其命名为EIC方法,实验所提出的方法能够有效提高预测关键蛋白质的准确率。3.提出了融合亚细胞和复合物信息的方法来识别关键蛋白质。通过考虑蛋白质所携带的两种生物信息包括亚细胞定位和复合物信息,明确了蛋白质所属的细胞类型,确定了蛋白质在亚细胞定位信息中的重要性,同时也考虑了蛋白质所在的复合物信息,弥补了单一生物信息在识别关键蛋白质中出现的假阴性现象。通过衡量节点在亚细胞和复合物中出现的频度、并结合亚细胞中各个细胞的重要程度,得到了最终算法SAC,实验证明了融合丰富的生物信息是一种提高识别关键蛋白质的有效途径。
其他文献
随着全球气候的变暖,海平面的上升和严重的空气污染,寻找更加清洁、可持续发展的新能源成为一个紧迫的问题。CH4分子由于其丰富的自然资源和较低的CO2排放量,被认为是传统燃料汽油和煤炭的一种替代燃料,因此各种天然气吸附材料得到广泛的研究。石墨炔类材料具有较大的比表面积、丰富的化学键和孔位结构等特点,在天然气储存方面存在巨大的应用潜力。本文首先研究了金属原子修饰对石墨二炔(GDY)体系吸附CH4性能的影
超导体的问世已经有百余年的历史,经过科学家的不断探索使得超导体有了很大的飞跃。特别是最近几十年,超导体在生产生活中扮演者重要的角色。由于高温超导体材料有较高的临界温度和临界电流密度,使得人们备受关注。超导体还受到磁通蠕动的影响,使得超导材料在磁场中的性质发生了变化,这篇文章主要研究的是高温超导体的块状材料,并且已经广泛的运用到各个领域。超导体受到磁通蠕动的影响,使得超导材料在高温中超导体是一种脆性
由经典Fourier热传导理论可知,热的传播速度是无限大的,热流密度与温度梯度成正比。对于热作用时间较长的稳态传热过程以及热传播速度较快的非稳态常规传热过程,采用经典Fourier热传导理论得出的结果是精确的。但对于一些比较极端的条件,如超高温传热、超低温传热及微尺度条件传热等,经典热传导理论已不再适用。为克服经典Fourier热传导理的局限性,便衍生出了非Fourier热传导理论。在非Fouri
金黄色葡萄球菌肠毒素(SEs)是金黄色葡萄球菌在生长的对数期或从指数期向稳定期过渡期间合成的有效胃肠外毒素。金黄色葡萄球菌可产生多种胃肠毒素,包括金黄色葡萄球菌肠毒素A、B、C、D、E、F、G、H、I、J、K、L、M、N、O、P等多种肠毒素。金黄色葡萄球菌肠毒素P(SEP)是导致食物中毒的主要因素之一。食物尤其是肉制品和乳制品可因处理不当或在高温下储存而被金黄色葡萄球菌污染。SEP中毒症状发病迅速
随着高新技术的日渐涌现,关于非稳态传热过程的研究愈发重要。然而经典的热弹性理论由于其局限性并不能准确描述非稳态传热过程的次声效应。因此,广大学者们相继提出了广义热弹性理论来描述非稳态传热过程中的热弹耦合效应。在经典的热弹性力学中,学者们一般假设应变率相对较小,继而在本构方程中忽略应变率的影响。然而,在一些极端条件下的非稳态传热过程,如:超高温度梯度,超短激光脉冲加热等,应变率对于结构的动态响应有着
喷塑流水线上,使用扁平型喷枪能对箱体表面实现高效、简便喷塑。不过现有的扁平型喷枪结构及其相关喷塑工艺存在诸多缺陷,因此本课题从喷枪结构阻碍流体运动、内犄角处难喷和涂层厚度不均匀问题入手,通过优化设计喷枪结构、分析搭配相关工艺参数,从而在解决相关问题的同时提高了扁平型喷枪使用效率及涂层质量。课题主要研究工作内容如下:首先,本课题根据研究需要,对流水线静电喷塑进行阶段划分,对涉及到的相关设备及工艺进行
经典传热学理论认为热传播速度无限大,随着工业技术的不断革新与发展,学者们通过实验观察发现热的实际传播情形与经典理论相悖。尤其是在一些极端热现象中,传统传热理论已经无法对其极端传热过程进行准确的描述。为了寻找能够描述极端环境中热的传播规律,许多学者提出了一系列广义热弹性理论对经典传热理论进行修正,其中包括L-S广义热弹性理论、G-N广义热弹性理论、三相滞后广义热弹性模型等。以及在这些理论基础上通过引
随着制造业的快速发展,螺纹广泛运用于各种机械产品中,螺纹的质量直接影响到机械设备的安全稳定运行,因此对螺纹的加工提出了更高的要求。异形内螺纹受其工件结构和螺纹牙型特殊性的影响,传统车削和攻丝加工的方法存在着装夹困难、效率低下、精度低、刀具易损坏、加工成本高等问题,极大地限制了异形内螺纹的生产应用。螺纹铣削方法是一种先进的加工方法,内螺纹的平行铣削是铣削加工内螺纹的一种形式,与其他螺纹加工方法相比,
酒泉某钢铁集团热轧厂成品车间的全自动钢带卷打捆机在对成品钢带卷进行打捆时,其剪切机构的剪刃经常出现崩刃、断刃及磨损过快现象,降低了剪刃寿命,严重影响生产效率。以全自动打捆机剪切捆扎带时出现的问题为研究对象,结合热轧厂成品车间实际生产线出现的问题以及公司人员提出的相关建议,对全自动钢带卷打捆机的总体设计结构和打捆过程进行分析和研究。在了解结构特征和工作原理后,对打捆机机头的剪切机构和压扣机构进行分析
铝/钢复合结构充分发挥了铝及铝合金轻量化特征和高强钢在强度、成本方面的优势,因此已经在汽车、海洋、航天航空以及化工等众多领域得到应用。相比于任何熔焊方法,连续驱动摩擦焊(CDFW)作为一种固相连接技术用以焊接具有回转界面的异种金属存在其独特优势。然而目前为止,摩擦界面组织的不均匀性及接头力学性能的差异是制约铝/钢连续驱动摩擦焊复合连接的关键问题。本文对纯铝1060/Q235低碳钢的连续驱动摩擦焊接