蛋白质网络中复合物的挖掘与应用研究

来源 :中南大学 | 被引量 : 0次 | 上传用户:sunjiajun75
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着蛋白质网络的日益完善,从大规模蛋白质网络中挖掘蛋白质复合物正成为当前复合物挖掘研究的热点。然而,由于蛋白质复合物拓扑结构的多样性、复合物的层次性与重叠性,在蛋白质网络中挖掘蛋白质复合物还存在很多挑战。针对这些问题,本文针对蛋白质网络中复合物的挖掘和应用进行研究,主要研究工作包括:1)挖掘具有不同拓扑特征的蛋白质复合物:由于蛋白质复合物通常对应蛋白质网络中的稠密子图或模块,目前基于蛋白质网络的复合物挖掘算法通常是通过在蛋白质网络中挖掘稠密子图或模块来识别蛋白质复合物。然而基于稠密子图的方法难以识别低密度的蛋白质复合物,它们通常为模块;而基于模块的方法难以识别模块性较低的蛋白质复合物,它们通常为稠密子图。为了挖掘具有不同拓扑特征的蛋白质复合物,包括低密度的模块和低模块性的稠密子图,我们综合子图密度和模块性定义新的子图局部适应度函数,并提出新的复合物挖掘算法,LF-PIN,通过在蛋白质网络中挖掘具有局部最大适应度的子图来识别蛋白质复合物。实验结果表明,与其他七种优秀的识别算法相比(CMC、Core-Attachment、CPM、DPClus、HC-PIN、MCL和NFC), LF-PIN算法能更有效的标识已知蛋白质复合物,特别是它能更有效标识低密度和低模块性的已知复合物。2)挖掘具有重叠性和层次性的蛋白质复合物:研究表明,蛋白质复合物具有重叠性和层次性。但在当前的复合物挖掘算法中,仅有基于层次聚类的算法能揭示复合物的层次结构。这类算法由于初始簇为互不重叠的蛋白质顶点,所识别的蛋白质复合物互不重叠。为了克服这种局限性,我们提出两种复合物挖掘算法:OH-PIN和MCSE。 OH-PIN为一种层次聚类算法,因此能揭示复合物层次结构;由于初始簇存在重叠,OH-PIN识别的复合物仍然保留重叠。MCSE是一种基于“种子-扩展”的识别算法。在扩展过程中,一个顶点可以被不同的种子访问并加入簇中,因此MCSE可以识别重叠的蛋白质复合物。而通过参数λ控制种子的扩展,MCSE可以识别不同层次的蛋白质复合物。在酵母中的实验结果表明,这两种算法所识别的复合物层次结构均能有效对应于GO注释的层次结构以及MIPS数据库中已知蛋白质复合物的层次结构。与其他优秀的识别算法相比,OH-PIN和MCSE都能更有效的识别已知蛋白质复合物,特别是位于较高层次的蛋白质复合物。比较OH-PIN和MCSE, OH-PIN算法在小规模、高可靠性的蛋白质网络上具有更好的性能,但其运行效率较低;而MCSE算法运行效率高,更适合于大规模蛋白质网络。3)综合蛋白质相互作用和其他生物数据挖掘蛋白质复合物:研究表明,蛋白质相互作用在蛋白质复合物中出现的可能性与它的某些生物特征相关。为了进一步提高蛋白质复合物的预测精度,我们提出一种多元数据融合方法,MD-WPIN,通过应用logistic回归模型评估蛋白质相互作用的关键性、可靠性、在蛋白质网络中的边聚集值以及它的两个蛋白质的亚细胞定位是否相同对它是否出现在蛋白质复合物中的影响,建立加权酵母蛋白质网络YDIPW+。比较多种复合物挖掘算法,包括我们提出LF-PIN和MCSE算法,在非加权酵母蛋白质网络、其他加权酵母蛋白质网络和YDIPW+上的性能,实验结果表明,在YDIPW+中,这些算法具有最佳性能。4)应用蛋白质复合物信息挖掘关键蛋白质:关键蛋白质的识别对于致病基因的发现及药物标靶的鉴定具有重要意义。基于蛋白质复合物和关键蛋白质之间存在密切联系这一发现,我们构造基于蛋白质复合物的测度参数Complex_C来识别关键蛋白质。实验结果表明,蛋白质的Complex_C值与拓扑中心性值均为预测蛋白质关键性的重要因素,并且它们具有良好的互补性。因此,我们综合Complex_C与子图中心性SC构造测度参数HC。为了进一步提高性能,我们将蛋白质亚细胞定位和参与的生物过程这两个蛋白质关键性的预测因子与蛋白质网络相结合构建加权蛋白质网络,扩展HC为HCW并用于在该加权网络中挖掘关键蛋白质。酵母中实验结果表明,当输出样本水平为top5%到25%时,与六种中心性测度方法中的最佳结果相比,HC识别的关键蛋白质分别增加了9.1%到15.2%;而与HC相比,HCW识别的关键蛋白质分别增加了4.2%到11.5%。本文提出的LF-PIN算法针对蛋白质复合物的拓扑多样性,OH-PIN算法和MCSE算法针对蛋白质复合物的层次性与重叠性,MD-WPIN方法通过融合其他有效生物数据到蛋白质网络,各自从不同角度出发,有效地解决了蛋白质复合物挖掘中的一些问题,并提高了复合物的预测精度。最后,我们应用蛋白质复合物信息挖掘关键蛋白质,这为关键蛋白质的识别研究提供了新的思路。
其他文献
橡胶弹簧元件一般运用线性的一维的变形律进行计算,而计算结果和实际变形之间的偏差应以一系列的修正系数进行修正。本文所介绍的一种扩展了的方程式,可以对各种不同尺寸的橡
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
从语源学、音韵学、文化学的角度推本穷源,“和”文明的起源应始于古人见到众多可以饱腹的禾谷而惊叹的“夥”;久而久之,定名为“禾”;因为“求禾”而有“ ”;禾谷丰收,人们会认为
期刊
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的探讨原发性胆汁性肝硬化(primary biliary cirrhosis,PBC)的误漏诊原因。方法回顾性分析2例PBC误漏诊病例资料。结果本文两例主要表现为皮肤瘙痒、黄疸、腹胀,病史分别为
许世英,安徽东至县人。北洋时期曾任内务总长、安徽省省长及执政府内阁总理等显要职位。我的父亲辑堂公曾任许世英幕府西席多年,过从甚密。我幼时亲闻先父谈及许世英,其中有下面
目的观察针刀松解术联合玻璃酸钠关节腔注射治疗膝骨性关节炎36例的临床效果.方法回顾性分析2016年3月~2017年3月于本院接受治疗的膝骨性关节炎患者108例的临床资料,其中36例
现当代随着经济与科技的不断提高,艺术设计正在朝着多元化,多样化的方向不断发展,今天的艺术设计的社会作用已不同于过去,更注重创意和创新,并努力把其运用到具体实践中,才能
采用威百亩、氯化苦、棉隆、辣根素和捷西消毒套餐5种土壤消毒剂对土壤基质进行消毒来防治草莓根腐病,通过比较消毒前后菌群数量计算防治效果,并采集计算不同消毒处理后草莓
在产品生产过程中,产品装配所需工时占生产制造总工时的40%-60%,装配成本约占总生产成本的40%。合理的装配序列规划(Assembly Sequence Planning,ASP)对提高产品的质量、降低生